Menangani Data Hilang dengan Imputasi di R
Michal Oleszak
Machine Learning Engineer
Gunakan model machine learning untuk memprediksi nilai hilang!
Kursus ini: paket missForest, berbasis randomForest


nhanes %>% is.na() %>% colSums()
Age Gender Weight Height Diabetes TotChol Pulse PhysActive
0 0 9 8 1 85 32 26
library(missForest)
imp_res <- missForest(nhanes)
nhanes_imp <- imp_res$ximp
nhanes_imp %>% is.na() %>% colSums()
Age Gender Weight Height Diabetes TotChol Pulse PhysActive
0 0 0 0 0 0 0 0
missForest() menyediakan perkiraan galat imputasi out-of-bag (OOB):
Pada keduanya, kinerja baik mendekati 0; nilai ~1 menunjukkan hasil buruk.
imp_res <- missForest(nhanes)
imp_res$OOBerror
NRMSE PFC
0.147687025 0.003676471
missForest() menyediakan perkiraan galat imputasi out-of-bag (OOB):
Pada keduanya, kinerja baik mendekati 0; nilai ~1 menunjukkan hasil buruk.
imp_res <- missForest(nhanes, variablewise = TRUE)
imp_res$OOBerror
MSE PFC MSE MSE PFC MSE MSE MSE
0.00000 0.00000 285.79563 40.42142 0.00735 0.53444 129.03609 0.17576
Menumbuhkan banyak random forest bisa memakan waktu.
Gagasan: korbankan sedikit akurasi dan kecilkan ukuran hutan untuk mengurangi waktu komputasi.
ntree).mtry).Dampaknya pada waktu komputasi berbeda:
ntree berdampak linear.mtry lebih mempercepat saat variabel banyak.Pengaturan default:
start_time <- Sys.time()
imp_res <- missForest(nhanes)
end_time <- Sys.time()
print(imp_res$OOBerror)
print(end_time - start_time)
NRMSE PFC
0.147687025 0.003676471
Time difference of 5.496582 secs
Hutan diperkecil:
start_time <- Sys.time()
imp_res <- missForest(nhanes,
ntree = 10,
mtry = 2)
end_time <- Sys.time()
print(imp_res$OOBerror)
print(end_time - start_time)
NRMSE PFC
0.162420139 0.007425743
Time difference of 0.516367 secs
Menangani Data Hilang dengan Imputasi di R