Membersihkan data teks

Membersihkan Data di R

Maggie Matsui

Content Developer @ DataCamp

Apa itu data teks?

Jenis data Contoh nilai
Nama "Veronica Hopkins", "Josiah", ...
Nomor telepon "6171679912", "(868) 949-4489", ...
Email "[email protected]", "[email protected]", ...
Kata sandi "JZY46TVG8SM", "iamjosiah21", ...
Komentar/Ulasan "great service!", "This product broke after 2 days", ...
Membersihkan Data di R

Masalah data tidak terstruktur

  • Ketidakkonsistenan format
    • "6171679912" vs. "(868) 949-4489"
    • "9239 5849 3712 0039" vs. "4490459957881031"
  • Ketidakkonsistenan informasi
    • +1 617-167-9912 vs. 617-167-9912
    • "Veronica Hopkins" vs. "Josiah"
  • Data tidak valid
    • Nomor telepon "0492" terlalu pendek
    • Kode pos "19888" tidak ada
Membersihkan Data di R

Data pelanggan

customers
# A tibble: 99 x 3
   name            company                     credit_card        
   <chr>           <chr>                       <chr>              
 1 Galena          In Magna Associates         5171 5854 8986 1916
 2 MacKenzie       Iaculis Ltd                 5128-5078-8008-5824
 3 Megan Acosta    Semper LLC                  5502 4529 0732 1744
 4 Phoebe Delacruz Sit Amet Nulla Limited      5419-7308-7424-0944
 5 Jessica         Pellentesque Sed Ltd        5419 2949 5508 9530
# ... with 95 more rows
Membersihkan Data di R

Mendeteksi nomor kartu kredit bertanda hubung

str_detect(customers$credit_card, "-")
FALSE TRUE FALSE TRUE FALSE TRUE TRUE FALSE FALSE TRUE TRUE TRUE FALSE ...
customers %>%
  filter(str_detect(credit_card, "-"))
   name            company                  credit_card        
 1 MacKenzie       Iaculis Ltd              5128-5078-8008-5824
 2 Phoebe Delacruz Sit Amet Nulla Limited   5419-7308-7424-0944
 3 Abel            Lorem PC                 5211-6023-0805-0217 
 ...
Membersihkan Data di R

Mengganti tanda hubung

customers %>%

mutate(credit_card_spaces = str_replace_all(credit_card, "-", " "))
   name            company                     credit_card_spaces        
 1 Galena          In Magna Associates         5171 5854 8986 1916
 2 MacKenzie       Iaculis Ltd                 5128 5078 8008 5824
 3 Megan Acosta    Semper LLC                  5502 4529 0732 1744
 4 Phoebe Delacruz Sit Amet Nulla Limited      5419 7308 7424 0944
 5 Jessica         Pellentesque Sed Ltd        5419 2949 5508 9530
 ...
Membersihkan Data di R

Menghapus tanda hubung dan spasi

credit_card_clean <- customers$credit_card %>%

str_remove_all("-") %>% str_remove_all(" ")
customers %>% mutate(credit_card = credit_card_clean)
   name            company                credit_card     
 1 Galena          In Magna Associates    5171585489861916
 2 MacKenzie       Iaculis Ltd            5128507880085824
 3 Megan Acosta    Semper LLC             5502452907321744
 ...
Membersihkan Data di R

Menemukan kartu kredit tidak valid

str_length(customers$credit_card)
16 16 16 16 16 16 16 16 16 16 16 16 12 16 16 16 16 16 16 16 16 16 16 16 16 ...
customers %>%
  filter(str_length(credit_card) != 16)
  name            company                   credit_card   
1 Jerry Russell   Sed Eu Company            516294099537
2 Ivor Christian  Ut Tincidunt Incorporated 544571330015
3 Francesca Drake Etiam Consulting          517394144089
Membersihkan Data di R

Menghapus kartu kredit tidak valid

customers %>%
  filter(str_length(credit_card) == 16)
   name            company                     credit_card     
 1 Galena          In Magna Associates         5171585489861916
 2 MacKenzie       Iaculis Ltd                 5128507880085824
 3 Megan Acosta    Semper LLC                  5502452907321744
 4 Phoebe Delacruz Sit Amet Nulla Limited      5419730874240944
 5 Jessica         Pellentesque Sed Ltd        5419294955089530
...
Membersihkan Data di R

Masalah teks yang lebih kompleks

  • Ekspresi reguler adalah urutan karakter untuk pencarian teks yang andal.
  • Beberapa karakter diperlakukan khusus dalam ekspresi reguler:
    • (, ), [, ], $, ., +, *, dan lainnya
  • Fungsi stringr menggunakan ekspresi reguler
  • Mencari karakter khusus perlu memakai fixed():
    • str_detect(column, fixed("$"))

 

 

Pelajari lebih lanjut di String Manipulation with stringr in R & Intermediate Regular Expressions in R

Membersihkan Data di R

Ayo berlatih!

Membersihkan Data di R

Preparing Video For Download...