Ontbrekende data: wat kan misgaan

Omgaan met missende data met imputaties in R

Michal Oleszak

Machine Learning Engineer

Wat je leert

Na deze cursus kun je:

Begrijpen waarom ontbrekende data speciale behandeling vereisen.
Met toetsen en visualisaties patronen in ontbrekende data detecteren.
Imputatie uitvoeren met statistische en machinelearning-modellen.
Onzekerheid uit imputatie meenemen in analyses en voorspellingen, voor meer robuustheid.

Vereisten

Deze cursus gaat ervan uit dat je bekend bent met:

Basisdatamanipulaties met dplyr en de pipe-operator (%>%).
Lineaire en logistische regressie (lm(), glm()).
Basis kansbegrippen: toevalsvariabelen, verdelingen.

Intro ontbrekende data

De beste manier om met ontbrekende data om te gaan, is ze niet te hebben.

Helaas komen ontbrekende data overal voor:

Non-respons in enquêtes.
Technische storingen bij meetapparatuur.
Data samenvoegen uit verschillende bronnen.
...

We moeten alert blijven op ontbrekende data.

¹ Orchard, T., and M. A. Woodbury. 1972. “A Missing Information Principle: Theory and Applications.” In Proceedings of the Sixth Berkeley Symposium on Mathematical Statistics and Probability, 1:697–715.

NHANES-data

head(nhanes, 3)

  Age Gender Weight Height Diabetes TotChol Pulse PhysActive
1  16   male   73.2  172.0    FALSE    3.00    76       TRUE
2  17   male   72.3  176.0    FALSE    2.61    74       TRUE
3  12   male   57.7  158.9    FALSE    4.27    80       TRUE

nhanes %>% is.na() %>% colSums()

Age     Gender     Weight     Height   Diabetes    TotChol    Pulse   PhysActive 
0       0          9          8        1            85        32      26

Lineaire regressie met incomplete data

model_1 <- lm(Diabetes ~ Age + Weight, 
              data = nhanes)

Delen van summary(model_1):

Residual standard error: 0.08571 on 804 
degrees of freedom (10 observations 
deleted due to missingness)

Adjusted R-squared:  0.005706 
F-statistic: 3.313 on 2 and 804 DF,  
p-value: 0.03691

model_2 <- lm(Diabetes ~ Age + Weight +
              TotChol, data = nhanes)

Delen van summary(model_2):

Residual standard error: 0.08264 on 718 
degrees of freedom (95 observations
deleted due to missingness)

Adjusted R-squared:  0.008422 
F-statistic: 3.041 on 3 and 718 DF,
p-value: 0.02834

Belangrijkste punten

Statistische software negeert ontbrekende data soms stilletjes.
Daardoor kun je modellen mogelijk niet vergelijken.
Alle onvolledige observaties droppen kan tot bias leiden.
Ontbrekende data moet je, als ze er zijn, goed aanpakken.

Laten we oefenen!

Omgaan met missende data met imputaties in R