Memeriksa keanggotaan

Membersihkan Data di R

Maggie Matsui

Content Developer @ DataCamp

Data kategorikal

  • Variabel kategorikal memiliki himpunan nilai yang tetap dan diketahui
Data Contoh nilai
Status pernikahan unmarried, married
Kategori pendapatan rumah tangga 0-20K, 20-40K, ...
Ukuran kaus S, M, L, XL
Membersihkan Data di R

Faktor

  • Dalam factor, tiap kategori disimpan sebagai angka dan memiliki label terkait
Data Label Representasi numerik
Status pernikahan unmarried, married 1, 2
Kategori pendapatan rumah tangga 0-20K, 20-40K, ... 1, 2, ...
Ukuran kaus S, M, L, XL 1, 2, 3, 4
Membersihkan Data di R

Level faktor

tshirt_size
L  XL XL L  M  M  M  L  XL L  S  M  M  S  S  M  XL S  L  S ... 
Levels: S M L XL
levels(tshirt_size)
"S"  "M"  "L"  "XL"
Membersihkan Data di R

Nilai yang tidak termasuk

  • factor tidak dapat memiliki nilai di luar yang telah ditetapkan
Data Level Tidak diizinkan
Status pernikahan unmarried, married divorced
Kategori pendapatan rumah tangga 0-20K, 20-40K, ... 10-30K
Ukuran kaus S, M, L, XL S/M
Membersihkan Data di R

Bagaimana nilai ini bisa muncul?

 

Di kiri, Kesalahan Entri Data digambarkan oleh kotak teks dengan kursor untuk teks bebas, dan menu tarik-turun. Di kanan, kesalahan parsing digambarkan oleh basis data.

Membersihkan Data di R

Filtering join: ulasan singkat

  • Menjaga atau menghapus observasi dari tabel pertama tanpa menambah kolom

Judul: Semi-join. Subjudul: Observasi X mana yang juga ada di Y? Di kiri, tabel satu kolom bernama X berisi a, b, c. Di kanan, tabel satu kolom bernama Y berisi a, c, d. Nilai a dan c di tiap tabel terhubung garis. Di X, sel a dan c disorot.

Membersihkan Data di R

Filtering join: ulasan singkat

  • Menjaga atau menghapus observasi dari tabel pertama tanpa menambah kolom

Judul: Anti-join. Subjudul: Observasi X mana yang tidak ada di Y? Di kiri, tabel satu kolom bernama X berisi a, b, c. Di kanan, tabel satu kolom bernama Y berisi a, c, d. Nilai a dan c di tiap tabel terhubung garis. Di X, sel b disorot.

Membersihkan Data di R

Contoh golongan darah

study_data
      name   birthday blood_type
1     Beth 2019-10-20         B-
2 Ignatius 2020-07-08         A-
3     Paul 2019-08-12         O+
4    Helen 2019-03-17         O-
5 Jennifer 2019-12-17         Z+
6  Kennedy 2020-04-27         A+
7    Keith 2019-04-19        AB+
blood_types
  blood_type
1         O-
2         O+
3         A-
4         A+
5         B+
6         B-
7        AB+
8        AB-
Membersihkan Data di R

Contoh golongan darah

study_data
      name   birthday blood_type
1     Beth 2019-10-20         B-
2 Ignatius 2020-07-08         A-
3     Paul 2019-08-12         O+
4    Helen 2019-03-17         O-
5 Jennifer 2019-12-17         Z+  <--
6  Kennedy 2020-04-27         A+
7    Keith 2019-04-19        AB+
blood_types
  blood_type
1         O-
2         O+
3         A-
4         A+
5         B+
6         B-
7        AB+
8        AB-
Membersihkan Data di R

Menemukan yang bukan anggota

Diagram Venn. Lingkaran kiri mewakili study_data dan kanan mewakili blood_types. Di sisi kiri ada Z+. Di bagian tengah ada A-, O-, AB+, A+, O+, dan B-. Di kanan ada B+ dan AB-. Z+ di kiri berwarna merah.

Membersihkan Data di R

Anti-join

study_data %>%
  anti_join(blood_types, by = "blood_type")
      name   birthday blood_type
1 Jennifer 2019-12-17         Z+
Membersihkan Data di R

Menghapus yang bukan anggota

Diagram Venn. Lingkaran kiri mewakili study_data dan kanan mewakili blood_types. Di sisi kiri ada Z+. Di bagian tengah ada A-, O-, AB+, A+, O+, dan B-. Di kanan ada B+ dan AB-. Golongan darah di tengah berwarna biru.

Membersihkan Data di R

Semi-join

study_data %>%
  semi_join(blood_types, by = "blood_type")
      name   birthday blood_type
1     Beth 2019-10-20         B-
2 Ignatius 2020-07-08         A-
3     Paul 2019-08-12         O+
4    Helen 2019-03-17         O-
5  Kennedy 2020-04-27         A+
6    Keith 2019-04-19        AB+
Membersihkan Data di R

Ayo berlatih!

Membersihkan Data di R

Preparing Video For Download...