Melakukan dan melacak imputasi

Menangani Data Hilang di R

Nicholas Tierney

Statistician

Ikhtisar pelajaran

Menggunakan imputasi untuk memahami struktur data

Memvisualkan + mengeksplor nilai imputasi

  • Imputasi untuk mengeksplor missingness
  • Lacak nilai hilang
  • Visualisasikan imputasi vs. data
Menangani Data Hilang di R

Menggunakan imputasi untuk memahami struktur data

impute_below(c(5,6,7,NA,9,10))
5.00000  6.00000  7.00000  4.40271  9.00000 10.00000
Menangani Data Hilang di R

impute_below

  • impute_below_if():
impute_below_if(data, is.numeric)
  • impute_below_at():
impute_below_at(data, vars(var1,var2))
  • impute_below_all():
impute_below_all(data)
Menangani Data Hilang di R

Melacak nilai hilang

df
# A tibble: 6 x 1
   var1
  <dbl>
1     5
2     6
3     7
4    NA
5     9
6    10
impute_below_all(df)
# A tibble: 6 x 1
   var1
  <dbl>
1  5   
2  6   
3  7   
4  4.40
5  9   
6 10
Menangani Data Hilang di R

Melacak nilai hilang

bind_shadow(df)
# A tibble: 6 x 2
   var1 var1_NA
  <dbl> <fct>  
1  5    !NA    
2  6    !NA    
3  7    !NA    
4  NA    NA     
5  9    !NA    
6 10    !NA
bind_shadow(df) %>% impute_below_all()
# A tibble: 6 x 2
   var1 var1_NA
  <dbl> <fct>  
1  5    !NA    
2  6    !NA    
3  7    !NA    
4  4.40 NA     
5  9    !NA    
6 10    !NA
Menangani Data Hilang di R

Visualisasikan nilai imputasi vs. nilai data dengan histogram

aq_imp <- airquality %>%
   bind_shadow() %>% 
   impute_below_all()

ggplot(aq_imp,
       aes(x = Ozone,
           fill = Ozone_NA)) + 
   geom_histogram()

Menangani Data Hilang di R

Visualisasikan nilai imputasi vs. nilai data dengan facet

ggplot(aq_imp,
       aes(x = Ozone,
           fill = Ozone_NA)) + 
  geom_histogram() + 
  facet_wrap(~ Month)

Menangani Data Hilang di R

Visualisasikan nilai imputasi dengan facet

ggplot(aq_imp,
       aes(x = Ozone,
           fill = Ozone_NA)) + 
  geom_histogram() + 
  facet_wrap(~ Solar.R_NA)

Menangani Data Hilang di R

Visualisasikan nilai imputasi vs. nilai data dengan scatter plot

aq_imp <- airquality %>%
  bind_shadow() %>% 
  add_label_shadow() %>%
  impute_below_all()

ggplot(aq_imp,
       aes(x = Ozone,
           y = Solar.R,
           color = any_missing)) + 
  geom_point()

Menangani Data Hilang di R

Ayo berlatih!

Menangani Data Hilang di R

Preparing Video For Download...