Mediaan-imputatie

Machine Learning met caret in R

Max Kuhn

Software Engineer at RStudio and creator of caret

Omgaan met missende waarden

  • De meeste modellen hebben cijfers nodig, kunnen geen missende data aan
  • Veelgebruikte aanpak: rijen met missende data verwijderen
    • Kan bias in de data geven
    • Leidt tot over-zelfverzekerde modellen
  • Betere strategie: mediaan-imputatie!
    • Vervang missende waarden door de mediaan
    • Werkt goed als data willekeurig ontbreekt (MAR)
Machine Learning met caret in R

Voorbeeld: mtcars

# Generate some data with missing values
data(mtcars)
set.seed(42)
mtcars[sample(1:nrow(mtcars), 10), "hp"] <- NA
# Split target from predictors
Y <- mtcars$mpg
X <- mtcars[, 2:4]
# Try to fit a caret model
library(caret)
model <- train(X, Y)
Error in train.default(X, Y) : Stopping 
Machine Learning met caret in R

Een simpele oplossing

# Now fit with median imputation
model <- train(X, Y, preProcess = "medianImpute")
print(model)
Random Forest 

32 samples
 3 predictor

Pre-processing: median imputation (3) 
Resampling: Bootstrapped (25 reps) 
Summary of sample sizes: 32, 32, 32, 32, 32, 32, ... 
Resampling results across tuning parameters:

  mtry  RMSE      Rsquared 
  2     2.617096  0.8234652
  3     2.670550  0.8164535

RMSE was used to select the optimal model using the smallest value.
The final value used for the model was mtry = 2. 
Machine Learning met caret in R

Laten we oefenen!

Machine Learning met caret in R

Preparing Video For Download...