Menangani Data Hilang dengan Imputasi di R
Michal Oleszak
Machine Learning Engineer
Imputasi = menebak terinformasi untuk nilai hilang
Bab ini fokus pada metode berbasis donor:

Imputasi mean cocok untuk deret waktu yang berfluktuasi acak di sekitar rata-rata jangka panjang.
Untuk data penampang, imputasi mean sering buruk:
Tugas: imputasi mean Height dan Weight pada data NHANES.
nhanes <- nhanes %>%
mutate(Height_imp = ifelse(is.na(Height), TRUE, FALSE)) %>%
mutate(Weight_imp = ifelse(is.na(Weight), TRUE, FALSE))
Height dan Weight dengan mean masing-masing.nhanes_imp <- nhanes %>%
mutate(Height = ifelse(is.na(Height), mean(Height, na.rm = TRUE), Height)) %>%
mutate(Weight = ifelse(is.na(Weight), mean(Weight, na.rm = TRUE), Weight))
nhanes_imp %>%
select(Weight, Height, Height_imp, Weight_imp) %>%
head()
Weight Height Height_imp Weight_imp
1 73.20000 166.2499 TRUE FALSE
2 72.30000 166.2499 TRUE FALSE
3 57.70000 158.9000 FALSE FALSE
4 88.90000 183.3000 FALSE FALSE
5 45.10000 157.6000 FALSE FALSE
6 66.77065 158.4000 FALSE TRUE
nhanes_imp %>% select(Weight, Height, Height_imp, Weight_imp) %>% marginplot(delimiter="imp")

Merusak hubungan antarvariabel:
Height dan Weight, korelasi positifnya melemah.Tidak ada variasi pada data imputasi:

Menangani Data Hilang dengan Imputasi di R