Prestatiemetrics voor regressiebomen

Machine Learning met boomgebaseerde modellen in R

Sandro Raabe

Data Scientist

Hoe prestaties meten?

Classificatie: nauwkeurigheid (confusion matrix)
Regressie: "correct" is relatief, geen binaire correctheid

$\Rightarrow$ Meet hoe ver voorspellingen van de waarheid afliggen

Veelgebruikte metrics voor regressie

Gemiddelde Absolute Fout (MAE)
Wortel Gemiddelde Kwadratische Fout (RMSE)

MAE: intuïtie

plot van gemiddelde verschillen

MAE = gemiddelde lengte van de rode balken

Formules en intuïtie

$$MAE = \frac{1}{n} \sum_{i=1}^n\left| actual_i - predicted_i \right|$$

"Som van absolute afwijkingen gedeeld door het aantal voorspellingen"

$$\quad MSE = \quad \frac{1}{n} \sum_{i=1}^n\left( actual_i - predicted_i \right)^2$$

"Gemiddelde kwadratische fout"

Formules en intuïtie

$$MAE = \frac{1}{n} \sum_{i=1}^n\left| actual_i - predicted_i \right|$$

"Som van absolute afwijkingen gedeeld door het aantal voorspellingen"

$$RMSE = \sqrt{\frac{1}{n} \sum_{i=1}^n\left( actual - predicted \right)^2}$$

"Wortel van de gemiddelde kwadratische fout"
Grote fouten tellen zwaarder

Coderen: voorspellingen

# parsnip en yardstick zitten in tidymodels
library(tidymodels)

# Voorspel en voeg toe aan testdata
predictions <- predict(model, new_data = chocolate_test) %>%

  bind_cols(chocolate_test)

# A tibble: 358 x 7
   .pred final_grade review_date cocoa_percent company_location
   <dbl>       <dbl>       <int>         <dbl> <fct>           
 1  2.5         2.75        2013          0.7  France          
 2  3.64        3.25        2014          0.8  France          
 3  3.3         3.5         2012          0.7  France          
 4  3.25        3.5         2011          0.72 Fiji            
# ... met nog 354 rijen en 2 extra variabelen: bean_type <fct>, broad_bean_origin <fct>

Coderen: mae() en rmse()

# Evalueren met mae()
mae(predictions,

    estimate = .pred,

    truth = final_grade)

# A tibble: 1 x 2
  .metric   .estimate
  <chr>         <dbl>
1 mae           0.363

# Evalueren met rmse()
rmse(predictions,
     estimate = .pred,
     truth = final_grade)

# A tibble: 1 x 2
  .metric   .estimate
  <chr>         <dbl>
1 rmse          0.457

Laten we evalueren!

Machine Learning met boomgebaseerde modellen in R