Imputatie uitvoeren en bijhouden

Omgaan met ontbrekende gegevens in R

Nicholas Tierney

Statistician

Lesoverzicht

Imputaties gebruiken om datastructuur te begrijpen

Imputaties visualiseren en verkennen

  • Imputeren om ontbrekende waarden te verkennen
  • Ontbrekende waarden bijhouden
  • Imputaties vergelijken met gegevens
Omgaan met ontbrekende gegevens in R

Imputaties gebruiken om datastructuur te begrijpen

impute_below(c(5,6,7,NA,9,10))
5.00000  6.00000  7.00000  4.40271  9.00000 10.00000
Omgaan met ontbrekende gegevens in R

impute_below

  • impute_below_if():
impute_below_if(data, is.numeric)
  • impute_below_at():
impute_below_at(data, vars(var1,var2))
  • impute_below_all():
impute_below_all(data)
Omgaan met ontbrekende gegevens in R

Ontbrekende waarden volgen

df
# A tibble: 6 x 1
   var1
  <dbl>
1     5
2     6
3     7
4    NA
5     9
6    10
impute_below_all(df)
# A tibble: 6 x 1
   var1
  <dbl>
1  5   
2  6   
3  7   
4  4.40
5  9   
6 10
Omgaan met ontbrekende gegevens in R

Ontbrekende waarden volgen

bind_shadow(df)
# A tibble: 6 x 2
   var1 var1_NA
  <dbl> <fct>  
1  5    !NA    
2  6    !NA    
3  7    !NA    
4  NA    NA     
5  9    !NA    
6 10    !NA
bind_shadow(df) %>% impute_below_all()
# A tibble: 6 x 2
   var1 var1_NA
  <dbl> <fct>  
1  5    !NA    
2  6    !NA    
3  7    !NA    
4  4.40 NA     
5  9    !NA    
6 10    !NA
Omgaan met ontbrekende gegevens in R

Imputaties vs. gegevens visualiseren met histogrammen

aq_imp <- airquality %>%
   bind_shadow() %>% 
   impute_below_all()

ggplot(aq_imp,
       aes(x = Ozone,
           fill = Ozone_NA)) + 
   geom_histogram()

Omgaan met ontbrekende gegevens in R

Imputaties vs. gegevens visualiseren met facetten

ggplot(aq_imp,
       aes(x = Ozone,
           fill = Ozone_NA)) + 
  geom_histogram() + 
  facet_wrap(~ Month)

Omgaan met ontbrekende gegevens in R

Imputaties visualiseren met facetten

ggplot(aq_imp,
       aes(x = Ozone,
           fill = Ozone_NA)) + 
  geom_histogram() + 
  facet_wrap(~ Solar.R_NA)

Omgaan met ontbrekende gegevens in R

Imputaties vs. gegevens visualiseren met spreidingsdiagrammen

aq_imp <- airquality %>%
  bind_shadow() %>% 
  add_label_shadow() %>%
  impute_below_all()

ggplot(aq_imp,
       aes(x = Ozone,
           y = Solar.R,
           color = any_missing)) + 
  geom_point()

Omgaan met ontbrekende gegevens in R

Laten we oefenen!

Omgaan met ontbrekende gegevens in R

Preparing Video For Download...