Foutmaten buiten de steekproef

Machine Learning met caret in R

Zach Mayer

Data Scientist at DataRobot and co-author of caret

Fout buiten de steekproef

  • We willen modellen die niet overfitten en goed generaliseren
  • Doen de modellen het goed op nieuwe data?
  • Test modellen op nieuwe data of een testset
    • Kerninzicht van machine learning
    • In-sample validatie leidt bijna zeker tot overfitting
  • Hoofddoel van caret en deze cursus: niet overfitten
Machine Learning met caret in R

Voorbeeld: out-of-sample RMSE

# Fit a model to the mtcars data
data(mtcars)
model <- lm(mpg ~ hp, mtcars[1:20, ])
# Predict out-of-sample
predicted <- predict(
  model, mtcars[21:32, ], type = "response"
)
# Evaluate error
actual <- mtcars[21:32, "mpg"]
sqrt(mean((predicted - actual) ^ 2))
5.507236
Machine Learning met caret in R

Vergelijk met in-sample RMSE

# Fit a model to the full dataset
model2 <- lm(mpg ~ hp, mtcars)
# Predict in-sample
predicted2 <- predict(
  model, mtcars, type = "response"
)
# Evaluate error
actual2 <- mtcars[, "mpg"]
sqrt(mean((predicted2 - actual2) ^ 2))
3.74

Vergelijk met out-of-sample RMSE van 5,5.

Machine Learning met caret in R

Laten we oefenen!

Machine Learning met caret in R

Preparing Video For Download...