Considerazioni finali

Gestione dei dati mancanti con imputazioni in R

Michal Oleszak

Machine Learning Engineer

Cosa sai

Capitolo 1: Il problema dei dati mancanti:

  • Modellare dati incompleti richiede un trattamento speciale.
  • I 3 meccanismi dei dati mancanti: MCAR, MAR e MNAR.
  • Visualizzazioni e test statistici aiutano a capire i pattern di missing.

Capitolo 2: Imputazione basata su donatori:

  • L’imputazione con la media è spesso una scelta scarsa.
  • Hot-deck imputation.
  • Imputazione k-Nearest Neighbors.
Gestione dei dati mancanti con imputazioni in R

Cosa sai

Capitolo 3: Imputazione basata su modelli

  • Iterare sulle variabili e imputarle fino a convergenza.
  • Replicare la variabilità estraendo da distribuzioni condizionali.
  • Imputazione ad albero con random forest.

Capitolo 4: Incertezza dall’imputazione

  • Imputazione multipla con bootstrapping.
  • Imputazione multipla con MICE.
Gestione dei dati mancanti con imputazioni in R

Quale metodo di imputazione scegliere?

Alcune linee guida generali:

  • Dati enormi o esecuzione real-time in produzione?

    Usa hot-deck imputation.

  • Hai relazioni specifiche tra variabili basate su conoscenza del dominio?

    Usa imputazione basata su modelli.

  • Non serve molta velocità e le relazioni non sono ovvie?

    Usa kNN o imputazione ad albero.

Gestione dei dati mancanti con imputazioni in R

Come stimare l’incertezza dall’imputazione?

Alcune linee guida generali:

  • Deve essere relativamente veloce?
  • Hai idee su quali modelli usare e come specificarli?

Usa MICE.

  • Vuoi un metodo non parametrico (kNN, hot-deck)?
  • Non vuoi preoccuparti delle assunzioni dei modelli?

Usa il bootstrapping.

Gestione dei dati mancanti con imputazioni in R

Prossimi passi

  • miceVignettes:

    • Imputazione passiva e post-processing
    • Imputare dati multi-livello
    • Analisi di sensitività
  • S. van Buuren (2018). Flexible Imputation of Missing Data. Second Edition. CRC/Chapman & Hall, FL: Boca Raton.

  • Altri pacchetti R: Amelia, mi

La copertina del libro "Flexible Imputation of Missing Data" di Stef van Buuren.

Gestione dei dati mancanti con imputazioni in R

Congratulazioni e in bocca al lupo!

Gestione dei dati mancanti con imputazioni in R

Preparing Video For Download...