Kelengkapan

Membersihkan Data di R

Maggie Matsui

Content Developer @ DataCamp

Apa itu data hilang?

Puzel lengkap dengan satu keping hilang. Deskripsi: Terjadi saat tidak ada nilai data yang tersimpan untuk variabel pada sebuah observasi.

Dapat direpresentasikan sebagai NA, nan, 0, 99, . ...

Membersihkan Data di R

Apa itu data hilang?

missing.png

Dapat direpresentasikan sebagai NA, nan, 0, 99, . ...

Robot yang mewakili kesalahan teknis.

Membersihkan Data di R

Apa itu data hilang?

missing.png

Dapat direpresentasikan sebagai NA, nan, 0, 99, . ...

Ilustrasi orang yang mewakili kesalahan manusia.

Membersihkan Data di R

Kualitas udara

head(airquality)
   Ozone Solar.R Wind Temp Month Day
1     41     190  7.4   67     5   1
2     36     118  8.0   72     5   2
3     12     149 12.6   74     5   3
4     18     313 11.5   62     5   4
5     NA      NA 14.3   56     5   5
6     28      NA 14.9   66     5   6
Membersihkan Data di R

Kualitas udara

head(airquality)
   Ozone Solar.R Wind Temp Month Day
1     41     190  7.4   67     5   1
2     36     118  8.0   72     5   2
3     12     149 12.6   74     5   3
4     18     313 11.5   62     5   4
5     NA      NA 14.3   56     5   5
6     28      NA 14.9   66     5   6
Membersihkan Data di R

Menemukan nilai hilang

is.na(airquality)
     Ozone Solar.R  Wind  Temp Month   Day
[1,] FALSE   FALSE FALSE FALSE FALSE FALSE
[2,] FALSE   FALSE FALSE FALSE FALSE FALSE
[3,] FALSE   FALSE FALSE FALSE FALSE FALSE
[4,] FALSE   FALSE FALSE FALSE FALSE FALSE
[5,]  TRUE    TRUE FALSE FALSE FALSE FALSE
[6,] FALSE    TRUE FALSE FALSE FALSE FALSE
Membersihkan Data di R

Menghitung nilai hilang

# Count missing vals in entire dataset
sum(is.na(airquality))
44
Membersihkan Data di R

Memvisualisasikan nilai hilang

library(visdat)
vis_miss(airquality)

Visualisasi dari kode. Kolom paling kiri punya garis hitam terbanyak, kolom kedua terbanyak berikutnya. Kolom lain tidak punya garis hitam.

Membersihkan Data di R

Menyelidiki missingness

airquality %>%
  mutate(miss_ozone = is.na(Ozone)) %>%

group_by(miss_ozone) %>% summarize(across(everything(), median, na.rm = TRUE))
  miss_ozone Ozone Solar.R  Wind  Temp Month   Day
  <lgl>      <dbl>   <int> <dbl> <dbl> <dbl> <dbl>
1 FALSE       31.5     207   9.7    65     7    16
2 TRUE        NA       194   9.7    99     6    15
Membersihkan Data di R

Menyelidiki missingness

airquality %>%
  arrange(Temp) %>%
  vis_miss()

Visualisasi yang sama, tetapi di kolom kiri (Ozone), semua nilai hilang berada di bagian bawah.

Membersihkan Data di R

Jenis data hilang

Kiri: Dadu enam sisi untuk Missing Completely at Random. Tengah: Dadu enam sisi dengan satu titik di tiap sisi untuk Missing at Random. Kanan: Empat kotak membentuk siklus untuk Missing Not at Random.

Membersihkan Data di R

Jenis data hilang

Missing completely at random: tidak ada hubungan sistematis antara data hilang dan nilai lain. Contoh: kesalahan input saat entri data.

Membersihkan Data di R

Jenis data hilang

Missing at random: Ada hubungan sistematis antara data hilang dan nilai teramati lain. Contoh: Ozone hilang pada suhu tinggi.

Membersihkan Data di R

Jenis missingness

Missing not at random: Ada hubungan sistematis antara data hilang dan nilai yang tidak teramati. Contoh: suhu hilang pada suhu tinggi.

Membersihkan Data di R

Menangani data hilang

Pendekatan sederhana:

  1. Buang data hilang
  2. Imputasi (isi) dengan ukuran statistik (mean, median, mode, ...) atau pengetahuan domain

Pendekatan lebih kompleks:

  1. Imputasi dengan pendekatan algoritmik
  2. Imputasi dengan model pembelajaran mesin

 

Pelajari lebih lanjut di Dealing with Missing Data in R

Membersihkan Data di R

Membuang nilai hilang

airquality %>%
  filter(!is.na(Ozone), !is.na(Solar.R))
   Ozone Solar.R  Wind  Temp Month   Day
   <int>   <int> <dbl> <int> <int> <int>
 1    41     190   7.4    67     5     1
 2    36     118     8    72     5     2
 3    12     149  12.6    74     5     3
 4    18     313  11.5    62     5     4
 5    23     299   8.6    65     5     7
 6    19      99  13.8    59     5     8
Membersihkan Data di R

Mengganti nilai hilang

airquality %>%
  mutate(ozone_filled = ifelse(is.na(Ozone), mean(Ozone, na.rm = TRUE), Ozone))
   Ozone Solar.R  Wind  Temp Month   Day ozone_filled
   <int>   <int> <dbl> <int> <int> <int>        <dbl>
 1    41     190   7.4    67     5     1         41  
 2    36     118   8      72     5     2         36  
 3    12     149  12.6    74     5     3         12  
 4    18     313  11.5    62     5     4         18  
 5    NA      NA  14.3    56     5     5         42.1
Membersihkan Data di R

Ayo berlatih!

Membersihkan Data di R

Preparing Video For Download...