Gestione dei dati mancanti con imputazioni in R
Michal Oleszak
Machine Learning Engineer
Imputation = stimare in modo ragionato i valori mancanti
In questo capitolo vediamo metodi basati su donatore:

L’imputazione con media funziona bene per serie temporali che oscillano casualmente attorno a una media di lungo periodo.
Per dati trasversali è spesso una scelta pessima:
Obiettivo: imputare con la media Height e Weight nei dati NHANES.
nhanes <- nhanes %>%
mutate(Height_imp = ifelse(is.na(Height), TRUE, FALSE)) %>%
mutate(Weight_imp = ifelse(is.na(Weight), TRUE, FALSE))
Height e Weight con le rispettive medie.nhanes_imp <- nhanes %>%
mutate(Height = ifelse(is.na(Height), mean(Height, na.rm = TRUE), Height)) %>%
mutate(Weight = ifelse(is.na(Weight), mean(Weight, na.rm = TRUE), Weight))
nhanes_imp %>%
select(Weight, Height, Height_imp, Weight_imp) %>%
head()
Weight Height Height_imp Weight_imp
1 73.20000 166.2499 TRUE FALSE
2 72.30000 166.2499 TRUE FALSE
3 57.70000 158.9000 FALSE FALSE
4 88.90000 183.3000 FALSE FALSE
5 45.10000 157.6000 FALSE FALSE
6 66.77065 158.4000 FALSE TRUE
nhanes_imp %>% select(Weight, Height, Height_imp, Weight_imp) %>% marginplot(delimiter="imp")

Distrugge le relazioni tra variabili:
Height e Weight con la media, la loro correlazione positiva si indebolisce.Nessuna variabilità nei dati imputati:

Gestione dei dati mancanti con imputazioni in R