Ontbrekende gegevens visualiseren

Omgaan met missende data met imputaties in R

Michal Oleszak

Machine Learning Engineer

Problemen met testen

  • Ontbreekpatronen met tests opsporen is omslachtig.
  • De t-toets veronderstelt veel over de data.
  • Conclusies op p-waardes zijn riskant (alpha-keuze, p-hacking).
Omgaan met missende data met imputaties in R

Ontbrekende data visualiseren

  • Alternatief: visualisaties!
  • Makkelijk te gebruiken.
  • Herkennen van ontbreekpatronen.
  • Inzicht in andere datakwaliteit.

Het VIM-pakket biedt sterke tools om ontbrekende data te plotten. In deze les:

  • Aggregatieplot
  • Spine-plot
  • Mozaïekplot
Omgaan met missende data met imputaties in R

Aggregatieplot

nhanes %>% aggr(combined = TRUE, numbers = TRUE)

Een aggregatieplot met een raster dat alle combinaties van ontbrekende en waargenomen waarden per variabele in de biopics-dataset toont. Per combinatie zie je het percentage observaties met dat ontbreekpatroon.

Omgaan met missende data met imputaties in R

Spine-plot

nhanes %>% select(Gender, TotChol) %>% spineMiss()

De spine-plot heeft twee balken voor man en vrouw. In elke balk staat het percentage ontbrekende waarden in totaal cholesterol voor dat geslacht.

Omgaan met missende data met imputaties in R

Mozaïekplot

nhanes %>% mosaicMiss(highlight = "TotChol", plotvars = c("Gender", "PhysActive"))

Een mozaïekplot met tegels in een rechthoek. Elke tegel hoort bij een waarde van "Gender" en een waarde van "PhysActive". In elke tegel staat het percentage ontbrekende waarden in totaal cholesterol.

Omgaan met missende data met imputaties in R

Laten we tekenen wat ontbreekt!

Omgaan met missende data met imputaties in R

Preparing Video For Download...