Mettere tutto insieme

Gestione dei dati mancanti con imputazioni in R

Michal Oleszak

Machine Learning Engineer

Caso di studio: libertà civili in Africa

head(africa)
  year      country gdp_pc  infl trade    civlib population
1 1972 Burkina Faso    377 -2.92 29.69 0.5000000    5848380
2 1973 Burkina Faso    376  7.60 31.31 0.5000000    5958700
3 1974 Burkina Faso    393  8.72 35.22 0.3333333    6075700
4 1975 Burkina Faso    416 18.76 40.11 0.3333333    6202000
5 1976 Burkina Faso    435 -8.40 37.76 0.5000000    6341030
6 1977 Burkina Faso    448 29.99 41.11 0.6666667    6486870
1 Fonte dati: https://scholar.harvard.edu/rbates/data
Gestione dei dati mancanti con imputazioni in R

Modellare dati incompleti

Obiettivo: studiare la relazione tra libertà civili, civlib, e PIL pro capite, gdp_pc.

  1. Visualizza i dati incompleti.
    • Quali variabili mancano?
    • Quali potrebbero essere i meccanismi di mancanza?
  2. Imputa i dati mancanti e verifica la qualità dell’imputazione.
  3. Esegui un modello sui dati imputati, considerando l’incertezza di imputazione.
Gestione dei dati mancanti con imputazioni in R

Cosa ti servirà

  • aggr()
  • spineMiss()
  • mice() - with() - pool()
Gestione dei dati mancanti con imputazioni in R

Valutare la qualità dell’imputazione con MICE

  • mice() produce più dataset imputati.
  • Visualizzarli tutti con le funzioni di VIM può essere macchinoso.
  • Il pacchetto mice offre grafici che gestiscono automaticamente più dataset.
nhanes_multiimp <- mice(nhanes, m = 5, defaultMethod = "pmm")
stripplot(nhanes_multiimp, 
          Weight ~ Height | .imp,
          pch = 20, cex = 2)
Gestione dei dati mancanti con imputazioni in R

Strip plot

Una griglia di sei scatter plot di Altezza vs Peso. Ogni grafico evidenzia in colore i valori imputati. I valori imputati sono vicini a quelli osservati, distinguibili solo per il colore.

Gestione dei dati mancanti con imputazioni in R

Mettiamo in pratica ciò che hai imparato!

Gestione dei dati mancanti con imputazioni in R

Preparing Video For Download...