Dati mancanti: cosa può andare storto

Gestione dei dati mancanti con imputazioni in R

Michal Oleszak

Machine Learning Engineer

Cosa imparerai

Al termine del corso, sarai in grado di:

Capire perché i dati mancanti richiedono un trattamento speciale.
Usare test statistici e visualizzazioni per rilevare pattern nei dati mancanti.
Effettuare imputazione con modelli statistici e di machine learning.
Integrare l’incertezza dell’imputazione in analisi e previsioni, rendendole più robuste.

Prerequisiti

Il corso presuppone familiarità con:

Manipolazioni di base con dplyr e l’operatore pipe (%>%).
Modelli di regressione lineare e logistica (lm(), glm()).
Concetti base di probabilità: variabili aleatorie, distribuzioni.

Introduzione ai dati mancanti

Ovviamente, il modo migliore per trattare i dati mancanti è non averli.

Purtroppo, i dati mancanti sono ovunque:

Mancate risposte nei sondaggi.
Problemi tecnici nella raccolta dati.
Integrazione di fonti diverse.
...

Dobbiamo restare vigili sui dati mancanti.

¹ Orchard, T., and M. A. Woodbury. 1972. “A Missing Information Principle: Theory and Applications.” In Proceedings of the Sixth Berkeley Symposium on Mathematical Statistics and Probability, 1:697–715.

Dati NHANES

head(nhanes, 3)

  Age Gender Weight Height Diabetes TotChol Pulse PhysActive
1  16   male   73.2  172.0    FALSE    3.00    76       TRUE
2  17   male   72.3  176.0    FALSE    2.61    74       TRUE
3  12   male   57.7  158.9    FALSE    4.27    80       TRUE

nhanes %>% is.na() %>% colSums()

Age     Gender     Weight     Height   Diabetes    TotChol    Pulse   PhysActive 
0       0          9          8        1            85        32      26

Regressione lineare con dati incompleti

model_1 <- lm(Diabetes ~ Age + Weight, 
              data = nhanes)

Parti di summary(model_1):

Errore standard dei residui: 0.08571 su 804 
gradi di libertà (10 osservazioni 
eliminate per dati mancanti)

R-quadrato aggiustato:  0.005706 
F-statistic: 3.313 su 2 e 804 GL,  
p-value: 0.03691

model_2 <- lm(Diabetes ~ Age + Weight +
              TotChol, data = nhanes)

Parti di summary(model_2):

Errore standard dei residui: 0.08264 su 718 
gradi di libertà (95 osservazioni
eliminate per dati mancanti)

R-quadrato aggiustato:  0.008422 
F-statistic: 3.041 su 3 e 718 GL,
p-value: 0.02834

Punti chiave

A volte i software statistici ignorano i dati mancanti senza avviso.
Di conseguenza, potresti non poter confrontare modelli diversi.
Eliminare le osservazioni incomplete può introdurre bias.
Se presenti, i dati mancanti vanno trattati correttamente.

Ayo berlatih!

Gestione dei dati mancanti con imputazioni in R