Beberapa metode prapemrosesan

Machine Learning dengan caret di R

Zach Mayer

Data Scientist at DataRobot and co-author of caret

Dunia luas preProcess

  • Lebih dari sekadar imputasi median atau KNN!
  • Dapat merangkai beberapa langkah prapemrosesan
  • “Resep” umum untuk model linear (urutan penting!)
    • Imputasi median ⇒ pusatkan ⇒ skala ⇒ fit glm
  • Lihat ?preProcess untuk detail
Machine Learning dengan caret di R

Contoh: prapemrosesan mtcars

# Generate some data with missing values
data(mtcars)
set.seed(42)
mtcars[sample(1:nrow(mtcars), 10), "hp"] <- NA
Y <- mtcars$mpg
X <- mtcars[,2:4] # <- Missing at random
# Use linear model "recipe"
set.seed(42)
model <- train(
  X, Y, method = "glm",
  preProcess = c("center", "scale", "medianImpute")
)
print(min(model$results$RMSE))
3.612713
Machine Learning dengan caret di R

Contoh: prapemrosesan mtcars

# PCA before modeling
set.seed(42)
model <- train(
  X, Y, method = "glm",
  preProcess = c("center", "scale", "medianImpute", "pca")
)
min(model$results$RMSE)
3.402557
Machine Learning dengan caret di R

Contoh: prapemrosesan mtcars

# Spatial sign transform
set.seed(42)
model <- train(
  X, Y, method = "glm",
  preProcess = c("center", "scale", "medianImpute", "spatialSign")
)
min(model$results$RMSE)
4.284904
Machine Learning dengan caret di R

Pandu singkat prapemrosesan

  • Mulai dengan imputasi median
  • Coba imputasi KNN jika hilang tidak acak
  • Untuk model linear ...
    • Pusatkan dan skala
    • Coba PCA dan spatial sign
  • Model berbasis pohon tidak butuh banyak prapemrosesan
Machine Learning dengan caret di R

Ayo berlatih!

Machine Learning dengan caret di R

Preparing Video For Download...