Omgaan met missende data met imputaties in R
Michal Oleszak
Machine Learning Engineer
Gebruik machinelearningmodellen om missende waarden te voorspellen!
In deze course: missForest-pakket, gebaseerd op randomForest


nhanes %>% is.na() %>% colSums()
Age Gender Weight Height Diabetes TotChol Pulse PhysActive
0 0 9 8 1 85 32 26
library(missForest)
imp_res <- missForest(nhanes)
nhanes_imp <- imp_res$ximp
nhanes_imp %>% is.na() %>% colSums()
Age Gender Weight Height Diabetes TotChol Pulse PhysActive
0 0 0 0 0 0 0 0
missForest() geeft een out-of-bag (OOB) schatting van de imputatiefout:
In beide gevallen duidt een waarde dicht bij 0 op goede prestaties; rond 1 is slecht.
imp_res <- missForest(nhanes)
imp_res$OOBerror
NRMSE PFC
0.147687025 0.003676471
missForest() geeft een out-of-bag (OOB) schatting van de imputatiefout:
In beide gevallen duidt een waarde dicht bij 0 op goede prestaties; rond 1 is slecht.
imp_res <- missForest(nhanes, variablewise = TRUE)
imp_res$OOBerror
MSE PFC MSE MSE PFC MSE MSE MSE
0.00000 0.00000 285.79563 40.42142 0.00735 0.53444 129.03609 0.17576
Meerdere random forests trainen kost tijd.
Idee: lever wat nauwkeurigheid in en verklein het bos om rekentijd te besparen.
ntree).mtry).Effect op rekentijd verschilt:
ntree heeft een lineair effect.mtry versnelt meer bij veel variabelen.Standaardinstellingen:
start_time <- Sys.time()
imp_res <- missForest(nhanes)
end_time <- Sys.time()
print(imp_res$OOBerror)
print(end_time - start_time)
NRMSE PFC
0.147687025 0.003676471
Time difference of 5.496582 secs
Verkleinde forests:
start_time <- Sys.time()
imp_res <- missForest(nhanes,
ntree = 10,
mtry = 2)
end_time <- Sys.time()
print(imp_res$OOBerror)
print(end_time - start_time)
NRMSE PFC
0.162420139 0.007425743
Time difference of 0.516367 secs
Omgaan met missende data met imputaties in R