Prestatiemetrics voor regressiebomen

Machine Learning met boomgebaseerde modellen in R

Sandro Raabe

Data Scientist

Hoe prestaties meten?

  • Classificatie: nauwkeurigheid (confusion matrix)
  • Regressie: "correct" is relatief, geen binaire correctheid

$\Rightarrow$ Meet hoe ver voorspellingen van de waarheid afliggen

Machine Learning met boomgebaseerde modellen in R

Veelgebruikte metrics voor regressie

  • Gemiddelde Absolute Fout (MAE)
  • Wortel Gemiddelde Kwadratische Fout (RMSE)

 

MAE: intuïtie

plot van gemiddelde verschillen

 

 

 

 

 

MAE = gemiddelde lengte van de rode balken

Machine Learning met boomgebaseerde modellen in R

Formules en intuïtie

 

$$MAE = \frac{1}{n} \sum_{i=1}^n\left| actual_i - predicted_i \right|$$

 

  • "Som van absolute afwijkingen gedeeld door het aantal voorspellingen"

$$\quad MSE = \quad \frac{1}{n} \sum_{i=1}^n\left( actual_i - predicted_i \right)^2$$

  •                   "Gemiddelde kwadratische fout"
Machine Learning met boomgebaseerde modellen in R

Formules en intuïtie

 

$$MAE = \frac{1}{n} \sum_{i=1}^n\left| actual_i - predicted_i \right|$$

 

  • "Som van absolute afwijkingen gedeeld door het aantal voorspellingen"

$$RMSE = \sqrt{\frac{1}{n} \sum_{i=1}^n\left( actual - predicted \right)^2}$$

  • "Wortel van de gemiddelde kwadratische fout"
  • Grote fouten tellen zwaarder
Machine Learning met boomgebaseerde modellen in R

Coderen: voorspellingen

# parsnip en yardstick zitten in tidymodels
library(tidymodels)
# Voorspel en voeg toe aan testdata
predictions <- predict(model, new_data = chocolate_test) %>%

bind_cols(chocolate_test)
# A tibble: 358 x 7
   .pred final_grade review_date cocoa_percent company_location
   <dbl>       <dbl>       <int>         <dbl> <fct>           
 1  2.5         2.75        2013          0.7  France          
 2  3.64        3.25        2014          0.8  France          
 3  3.3         3.5         2012          0.7  France          
 4  3.25        3.5         2011          0.72 Fiji            
# ... met nog 354 rijen en 2 extra variabelen: bean_type <fct>, broad_bean_origin <fct>
Machine Learning met boomgebaseerde modellen in R

Coderen: mae() en rmse()

# Evalueren met mae()
mae(predictions,

estimate = .pred,
truth = final_grade)
# A tibble: 1 x 2
  .metric   .estimate
  <chr>         <dbl>
1 mae           0.363
# Evalueren met rmse()
rmse(predictions,
     estimate = .pred,
     truth = final_grade)
# A tibble: 1 x 2
  .metric   .estimate
  <chr>         <dbl>
1 rmse          0.457
Machine Learning met boomgebaseerde modellen in R

Laten we evalueren!

Machine Learning met boomgebaseerde modellen in R

Preparing Video For Download...