Visualizzare i pattern di dati mancanti

Gestione dei dati mancanti con imputazioni in R

Michal Oleszak

Machine Learning Engineer

Problemi dell’approccio basato sui test

  • Rilevare pattern di dati mancanti con test statistici è macchinoso.
  • Il t-test ha molte assunzioni sui dati.
  • Le inferenze basate sui p-value sono problematiche (soglie arbitrarie, p-hacking).
Gestione dei dati mancanti con imputazioni in R

Visualizzare i dati mancanti

  • Un altro approccio: le visualizzazioni!
  • Semplici da usare.
  • Permettono di rilevare pattern di missing.
  • Offrono indizi su altri aspetti della qualità dei dati.

Il pacchetto VIM offre ottimi strumenti per tracciare i dati mancanti. In questa lezione:

  • Aggregation plot
  • Spine plot
  • Mosaic plot
Gestione dei dati mancanti con imputazioni in R

Aggregation plot

nhanes %>% aggr(combined = TRUE, numbers = TRUE)

Un aggregation plot con una griglia che mostra tutte le combinazioni di valori presenti e mancanti nelle variabili del dataset biopics. Per ogni combinazione, mostra la percentuale di osservazioni con quel pattern di missing.

Gestione dei dati mancanti con imputazioni in R

Spine plot

nhanes %>% select(Gender, TotChol) %>% spineMiss()

Lo spine plot ha due barre per maschi e femmine. In ciascuna barra è mostrata la percentuale di valori mancanti in TotChol per quel genere.

Gestione dei dati mancanti con imputazioni in R

Mosaic plot

nhanes %>% mosaicMiss(highlight = "TotChol", plotvars = c("Gender", "PhysActive"))

Un mosaic plot composto da riquadri che formano un rettangolo. Ogni riquadro corrisponde a un valore di "Gender" e uno di "PhysActive". In ogni riquadro è mostrata la percentuale di valori mancanti in TotChol.

Gestione dei dati mancanti con imputazioni in R

Tracciamo cosa manca!

Gestione dei dati mancanti con imputazioni in R

Preparing Video For Download...