Slotopmerkingen

Omgaan met missende data met imputaties in R

Michal Oleszak

Machine Learning Engineer

Wat je nu weet

Hoofdstuk 1: Het probleem van missende data:

  • Incomplete data modelleren vraagt om speciale aanpak.
  • De 3 mechanismen: MCAR, MAR en MNAR.
  • Visualisaties en tests geven inzicht in patronen van missende data.

Hoofdstuk 2: Donorgebaseerde imputatie:

  • Gemiddelde imputatie is meestal een slechte keuze.
  • Hot-deck-imputatie.
  • k-nearest-neighbors-imputatie.
Omgaan met missende data met imputaties in R

Wat je nu weet

Hoofdstuk 3: Modelgebaseerde imputatie

  • Over variabelen loopen en imputeren tot convergentie.
  • Variatie repliceren door te trekken uit conditionele verdelingen.
  • Boomgebaseerde imputatie met random forests.

Hoofdstuk 4: Onzekerheid door imputatie

  • Meervoudige imputatie via bootstrapping.
  • Meervoudige imputatie met MICE.
Omgaan met missende data met imputaties in R

Welke imputatiemethode kies je?

Enkele vuistregels:

  • Enorme data of realtime in productie nodig?

    Gebruik hot-deck-imputatie.

  • Verdenk je specifieke relaties op basis van domeinkennis?

    Gebruik modelgebaseerde imputatie.

  • Hoeft niet heel snel en relaties zijn niet duidelijk?

    Gebruik kNN- of boomgebaseerde imputatie.

Omgaan met missende data met imputaties in R

Hoe schat je onzekerheid door imputatie?

Enkele vuistregels:

  • Moet relatief snel zijn?
  • Heb je ideeën over modellen en specificaties?

Gebruik MICE.

  • Wil je een niet-parametrische methode (kNN, hot-deck)?
  • Wil je je niet druk maken om modelaannames?

Gebruik bootstrapping.

Omgaan met missende data met imputaties in R

Volgende stappen

  • miceVignettes:

    • Passieve imputatie en nabewerking
    • Imputatie van multileveldata
    • Gevoeligheidsanalyse
  • S. van Buuren (2018). Flexible Imputation of Missing Data. Second Edition. CRC/Chapman & Hall, FL: Boca Raton.

  • Andere R-pakketten: Amelia, mi

De cover van het boek "Flexible Imputation of Missing Data" van Stef van Buuren.

Omgaan met missende data met imputaties in R

Gefeliciteerd en veel succes!

Omgaan met missende data met imputaties in R

Preparing Video For Download...