Ukuran galat out-of-sample

Machine Learning dengan caret di R

Zach Mayer

Data Scientist at DataRobot and co-author of caret

Galat out-of-sample

  • Ingin model yang tidak overfit dan dapat menggeneralisasi dengan baik
  • Apakah model bekerja baik pada data baru?
  • Uji model pada data baru, atau test set
    • Wawasan kunci machine learning
    • Validasi in-sample hampir pasti menyebabkan overfitting
  • Tujuan utama caret dan kursus ini: jangan overfit
Machine Learning dengan caret di R

Contoh: RMSE out-of-sample

# Fit a model to the mtcars data
data(mtcars)
model <- lm(mpg ~ hp, mtcars[1:20, ])
# Predict out-of-sample
predicted <- predict(
  model, mtcars[21:32, ], type = "response"
)
# Evaluate error
actual <- mtcars[21:32, "mpg"]
sqrt(mean((predicted - actual) ^ 2))
5.507236
Machine Learning dengan caret di R

Bandingkan dengan RMSE in-sample

# Fit a model to the full dataset
model2 <- lm(mpg ~ hp, mtcars)
# Predict in-sample
predicted2 <- predict(
  model, mtcars, type = "response"
)
# Evaluate error
actual2 <- mtcars[, "mpg"]
sqrt(mean((predicted2 - actual2) ^ 2))
3.74

Bandingkan dengan RMSE out-of-sample sebesar 5,5.

Machine Learning dengan caret di R

Ayo berlatih!

Machine Learning dengan caret di R

Preparing Video For Download...