R'de Atamaya Dayalı Eksik Veri Doldurma
Michal Oleszak
Machine Learning Engineer
Eksik değerleri tahmin etmek için makine öğrenmesini kullanın!
Bu derste: randomForest tabanlı missForest paketi


nhanes %>% is.na() %>% colSums()
Age Gender Weight Height Diabetes TotChol Pulse PhysActive
0 0 9 8 1 85 32 26
kütüphane(missForest)
imp_res <- missForest(nhanes)
nhanes_imp <- imp_res$ximp
nhanes_imp %>% is.na() %>% colSums()
Age Gender Weight Height Diabetes TotChol Pulse PhysActive
0 0 0 0 0 0 0 0
missForest() torba dışı (OOB) atama hata kestirimi sağlar:
Her iki durumda da iyi performans 0’a yakın, 1 civarı ise zayıftır.
imp_res <- missForest(nhanes)
imp_res$OOBerror
NRMSE PFC
0.147687025 0.003676471
missForest() torba dışı (OOB) atama hata kestirimi sağlar:
Her iki durumda da iyi performans 0’a yakın, 1 civarı ise zayıftır.
imp_res <- missForest(nhanes, variablewise = TRUE)
imp_res$OOBerror
MSE PFC MSE MSE PFC MSE MSE MSE
0.00000 0.00000 285.79563 40.42142 0.00735 0.53444 129.03609 0.17576
Birden çok rastgele orman yetiştirmek zaman alabilir.
Fikir: Biraz doğruluktan vazgeçip ormanı küçülterek hesaplama süresini azaltmak.
ntree).mtry).Hesaplama süresine etkisi farklıdır:
ntree azaltımı doğrusal etki yapar.mtry azaltımı, değişken çoksa hızı daha çok artırır.Varsayılan ayarlar:
start_time <- Sys.time()
imp_res <- missForest(nhanes)
end_time <- Sys.time()
print(imp_res$OOBerror)
print(end_time - start_time)
NRMSE PFC
0.147687025 0.003676471
Time difference of 5.496582 secs
Küçültülmüş ormanlar:
start_time <- Sys.time()
imp_res <- missForest(nhanes,
ntree = 10,
mtry = 2)
end_time <- Sys.time()
print(imp_res$OOBerror)
print(end_time - start_time)
NRMSE PFC
0.162420139 0.007425743
Time difference of 0.516367 secs
R'de Atamaya Dayalı Eksik Veri Doldurma