Ontbrekende data: wat kan misgaan

Omgaan met missende data met imputaties in R

Michal Oleszak

Machine Learning Engineer

Wat je leert

Na deze cursus kun je:

  • Begrijpen waarom ontbrekende data speciale behandeling vereisen.
  • Met toetsen en visualisaties patronen in ontbrekende data detecteren.
  • Imputatie uitvoeren met statistische en machinelearning-modellen.
  • Onzekerheid uit imputatie meenemen in analyses en voorspellingen, voor meer robuustheid.
Omgaan met missende data met imputaties in R

Vereisten

Deze cursus gaat ervan uit dat je bekend bent met:

  • Basisdatamanipulaties met dplyr en de pipe-operator (%>%).
  • Lineaire en logistische regressie (lm(), glm()).
  • Basis kansbegrippen: toevalsvariabelen, verdelingen.
Omgaan met missende data met imputaties in R

Intro ontbrekende data

De beste manier om met ontbrekende data om te gaan, is ze niet te hebben.

Helaas komen ontbrekende data overal voor:

  • Non-respons in enquêtes.
  • Technische storingen bij meetapparatuur.
  • Data samenvoegen uit verschillende bronnen.
  • ...

We moeten alert blijven op ontbrekende data.

1 Orchard, T., and M. A. Woodbury. 1972. “A Missing Information Principle: Theory and Applications.” In Proceedings of the Sixth Berkeley Symposium on Mathematical Statistics and Probability, 1:697–715.
Omgaan met missende data met imputaties in R

NHANES-data

head(nhanes, 3)
  Age Gender Weight Height Diabetes TotChol Pulse PhysActive
1  16   male   73.2  172.0    FALSE    3.00    76       TRUE
2  17   male   72.3  176.0    FALSE    2.61    74       TRUE
3  12   male   57.7  158.9    FALSE    4.27    80       TRUE
nhanes %>% is.na() %>% colSums()
Age     Gender     Weight     Height   Diabetes    TotChol    Pulse   PhysActive 
0       0          9          8        1            85        32      26
Omgaan met missende data met imputaties in R

Lineaire regressie met incomplete data

model_1 <- lm(Diabetes ~ Age + Weight, 
              data = nhanes)

Delen van summary(model_1):

Residual standard error: 0.08571 on 804 
degrees of freedom (10 observations 
deleted due to missingness)

Adjusted R-squared:  0.005706 
F-statistic: 3.313 on 2 and 804 DF,  
p-value: 0.03691
model_2 <- lm(Diabetes ~ Age + Weight +
              TotChol, data = nhanes)

Delen van summary(model_2):

Residual standard error: 0.08264 on 718 
degrees of freedom (95 observations
deleted due to missingness)

Adjusted R-squared:  0.008422 
F-statistic: 3.041 on 3 and 718 DF,
p-value: 0.02834
Omgaan met missende data met imputaties in R

Belangrijkste punten

  • Statistische software negeert ontbrekende data soms stilletjes.
  • Daardoor kun je modellen mogelijk niet vergelijken.
  • Alle onvolledige observaties droppen kan tot bias leiden.
  • Ontbrekende data moet je, als ze er zijn, goed aanpakken.
Omgaan met missende data met imputaties in R

Laten we oefenen!

Omgaan met missende data met imputaties in R

Preparing Video For Download...