Gestione dei dati mancanti con imputazioni in R
Michal Oleszak
Machine Learning Engineer
I problemi di dati mancanti si dividono in tre categorie. Distinguerle è fondamentale perché ognuna richiede soluzioni diverse.
Le posizioni dei valori mancanti sono del tutto casuali e non dipendono da altri dati.
Esempio:
Un sensore meteo misura la temperatura e invia i dati a un database. Alcune voci mancano quando il sensore si è guastato.
Le posizioni dei valori mancanti dipendono da altri dati osservati.
Esempio:
Mancano alcune temperature quando il sensore è stato spento per manutenzione. Poiché il team non lavora nei weekend, le posizioni dei mancanti dipendono dal giorno della settimana.
Le posizioni dei valori mancanti dipendono dai valori mancanti stessi.
Esempio:
Con freddo estremo il sensore si blocca e smette di funzionare. Non registra quindi temperature molto basse. Le posizioni dei mancanti nella variabile temperatura dipendono dai valori della variabile stessa.
E se eliminassimo le osservazioni incomplete?
Esempio: t-test per differenza tra medie
p-value piccolo → rifiuta l’ipotesi nulla → medie diverse
p-value grande → non rifiutare l’ipotesi nulla → medie uguali
Obiettivo: verificare se la percentuale di valori mancanti in una variabile cambia al variare di un’altra.
Esempio: la percentuale di mancanti in PhysActive è diversa tra maschi e femmine?
Procedura:
PhysActive è mancante.nhanes <- nhanes %>%
mutate(missing_phys_active = is.na(PhysActive))
missing_phys_active_male <- nhanes %>%
filter(Gender == "male") %>%
pull(missing_phys_active)
missing_phys_active_female <- nhanes %>%
filter(Gender == "female") %>%
pull(missing_phys_active)
t.test(missing_phys_active_female, missing_phys_active_male)
Welch Two Sample t-test
data: missing_phys_active_female and missing_phys_active_male
t = -1.7192, df = 781.18, p-value = 0.08597
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
-0.044414688 0.002940477
sample estimates:
mean of x mean of y
0.02083333 0.04157044
Gestione dei dati mancanti con imputazioni in R