Dati mancanti: cosa può andare storto

Gestione dei dati mancanti con imputazioni in R

Michal Oleszak

Machine Learning Engineer

Cosa imparerai

Al termine del corso, sarai in grado di:

  • Capire perché i dati mancanti richiedono un trattamento speciale.
  • Usare test statistici e visualizzazioni per rilevare pattern nei dati mancanti.
  • Effettuare imputazione con modelli statistici e di machine learning.
  • Integrare l’incertezza dell’imputazione in analisi e previsioni, rendendole più robuste.
Gestione dei dati mancanti con imputazioni in R

Prerequisiti

Il corso presuppone familiarità con:

  • Manipolazioni di base con dplyr e l’operatore pipe (%>%).
  • Modelli di regressione lineare e logistica (lm(), glm()).
  • Concetti base di probabilità: variabili aleatorie, distribuzioni.
Gestione dei dati mancanti con imputazioni in R

Introduzione ai dati mancanti

Ovviamente, il modo migliore per trattare i dati mancanti è non averli.

Purtroppo, i dati mancanti sono ovunque:

  • Mancate risposte nei sondaggi.
  • Problemi tecnici nella raccolta dati.
  • Integrazione di fonti diverse.
  • ...

Dobbiamo restare vigili sui dati mancanti.

1 Orchard, T., and M. A. Woodbury. 1972. “A Missing Information Principle: Theory and Applications.” In Proceedings of the Sixth Berkeley Symposium on Mathematical Statistics and Probability, 1:697–715.
Gestione dei dati mancanti con imputazioni in R

Dati NHANES

head(nhanes, 3)
  Age Gender Weight Height Diabetes TotChol Pulse PhysActive
1  16   male   73.2  172.0    FALSE    3.00    76       TRUE
2  17   male   72.3  176.0    FALSE    2.61    74       TRUE
3  12   male   57.7  158.9    FALSE    4.27    80       TRUE
nhanes %>% is.na() %>% colSums()
Age     Gender     Weight     Height   Diabetes    TotChol    Pulse   PhysActive 
0       0          9          8        1            85        32      26
Gestione dei dati mancanti con imputazioni in R

Regressione lineare con dati incompleti

model_1 <- lm(Diabetes ~ Age + Weight, 
              data = nhanes)

Parti di summary(model_1):

Errore standard dei residui: 0.08571 su 804 
gradi di libertà (10 osservazioni 
eliminate per dati mancanti)

R-quadrato aggiustato:  0.005706 
F-statistic: 3.313 su 2 e 804 GL,  
p-value: 0.03691
model_2 <- lm(Diabetes ~ Age + Weight +
              TotChol, data = nhanes)

Parti di summary(model_2):

Errore standard dei residui: 0.08264 su 718 
gradi di libertà (95 osservazioni
eliminate per dati mancanti)

R-quadrato aggiustato:  0.008422 
F-statistic: 3.041 su 3 e 718 GL,
p-value: 0.02834
Gestione dei dati mancanti con imputazioni in R

Punti chiave

  • A volte i software statistici ignorano i dati mancanti senza avviso.
  • Di conseguenza, potresti non poter confrontare modelli diversi.
  • Eliminare le osservazioni incomplete può introdurre bias.
  • Se presenti, i dati mancanti vanno trattati correttamente.
Gestione dei dati mancanti con imputazioni in R

Ayo berlatih!

Gestione dei dati mancanti con imputazioni in R

Preparing Video For Download...