Apa yang membuat imputasi baik

Menangani Data Hilang di R

Nicholas Tierney

Statistician

Ringkasan pelajaran

  • Memahami imputasi yang baik dan buruk
  • Evaluasi nilai hilang:
    • Rata-rata, Skala, Sebaran
  • Dengan visualisasi
    • Box plot
    • Scatter plot
    • Histogram
    • Banyak variabel
Menangani Data Hilang di R

Memahami yang baik dengan memahami yang buruk

# A tibble: 6 x 1
       x
   <dbl>
 1     1
 2     4
 3     9
 4    16
 5    NA
 6    36
mean(df$x, na.rm = TRUE)
# A tibble: 6 x 1
       x
   <dbl>
 1   1  
 2   4  
 3   9  
 4  16  
 5  13.2
 6  36
13.2
Menangani Data Hilang di R

Mendemonstrasikan imputasi rata-rata

Data dengan nilai hilang

Data dengan imputasi rata-rata

Menangani Data Hilang di R

Menjelajah imputasi buruk: Rata-rata

  • impute_mean(data$variable)
  • impute_mean_if(data, is.numeric)
  • impute_mean_at(data, vars(variable1, variable2))
  • impute_mean_all(data)
Menangani Data Hilang di R

Melacak nilai hilang

aq_impute_mean <- airquality %>%
  bind_shadow(only_miss = TRUE) %>%
  impute_mean_all() %>%
  add_label_shadow()
aq_impute_mean
# A tibble: 153 x 9
   Ozone Solar.R  Wind  Temp Month   Day Ozone_NA Solar.R_NA any_missing
   <dbl>   <dbl> <dbl> <dbl> <dbl> <dbl> <fct>    <fct>      <chr>      
 1  41      190    7.4    67     5     1 !NA      !NA        Not Missing
 2  36      118    8      72     5     2 !NA      !NA        Not Missing
 3  12      149   12.6    74     5     3 !NA      !NA        Not Missing
 4  18      313   11.5    62     5     4 !NA      !NA        Not Missing
 5  42.1    186.  14.3    56     5     5 NA       NA         Missing    
 6  28      186.  14.9    66     5     6 !NA      NA         Missing    
Menangani Data Hilang di R

Menjelajah imputasi dengan box plot

Saat mengevaluasi imputasi, telusuri perubahan/kemiripan pada

  • Rata-rata/median (boxplot)
  • Sebaran
  • Skala
Menangani Data Hilang di R

Memvisualisasikan imputasi dengan box plot

ggplot(aq_impute_mean,
       aes(x = Ozone_NA,
           y = Ozone)) +
  geom_boxplot()

Menangani Data Hilang di R

Menjelajah imputasi buruk dengan scatter plot

Saat mengevaluasi imputasi, telusuri perubahan/kemiripan pada

  • Sebaran (scatter plot)
ggplot(aq_impute_mean,
       aes(x = Ozone,
           y = Solar.R,
           color = any_missing)) +
  geom_point()

Menangani Data Hilang di R

Menjelajah imputasi untuk banyak variabel

aq_imp <- airquality %>%
  bind_shadow() %>%
  impute_mean_all()

aq_imp_long <- shadow_long(aq_imp, 
                           Ozone, 
                           Solar.R)

aq_imp_long
# A tibble: 306 x 4
   variable value variable_NA value_NA
   <chr>    <dbl> <chr>       <chr>   
 1 Ozone     41   Ozone_NA    !NA     
 2 Ozone     36   Ozone_NA    !NA     
 3 Ozone     12   Ozone_NA    !NA     
 4 Ozone     18   Ozone_NA    !NA     
 5 Ozone     42.1 Ozone_NA    NA      
 6 Ozone     28   Ozone_NA    !NA     
 7 Ozone     23   Ozone_NA    !NA     
 8 Ozone     19   Ozone_NA    !NA     
 9 Ozone      8   Ozone_NA    !NA     
10 Ozone     42.1 Ozone_NA    NA      
# ... with 296 more rows
Menangani Data Hilang di R

Menjelajah imputasi untuk banyak variabel

ggplot(aq_imp_long,
       aes(x = value,
           fill = value_NA)) + 
  geom_histogram() + 
  facet_wrap(~ variable)

Menangani Data Hilang di R

Ayo berlatih!

Menangani Data Hilang di R

Preparing Video For Download...