Tokenizing dan pembersihan

Pengantar Analisis Teks di R

Maham Faisal Khan

Senior Data Science Content Developer

Menggunakan tidytext

Pengantar Analisis Teks di R

Tokenizing teks

Beberapa istilah pemrosesan bahasa alami (NLP):

  • Bag-of-words: kata dalam dokumen bersifat independen
  • Setiap potongan teks terpisah adalah dokumen
  • Setiap kata unik adalah term
  • Setiap kemunculan term adalah token
  • Membuat bag-of-words disebut tokenizing
Pengantar Analisis Teks di R

Menggunakan unnest_tokens()

tidy_review <- review_data %>% 
  unnest_tokens(word, review)

tidy_review
# A tibble: 229,481 x 4
   date    product                    stars word   
   <chr>   <chr>                      <dbl> <chr>  
 1 2/28/15 iRobot Roomba 650 for Pets     5 you    
 2 2/28/15 iRobot Roomba 650 for Pets     5 would  
 3 2/28/15 iRobot Roomba 650 for Pets     5 not    
# … with 229,478 more rows
Pengantar Analisis Teks di R

Menghitung kata

tidy_review %>% 
  count(word) %>% 
  arrange(desc(n))
# A tibble: 10,310 x 2
   word      n
   <chr> <int>
 1 the   11785
 2 it     7905
 3 and    6794
# … with 10,307 more rows
Pengantar Analisis Teks di R

Menggunakan anti_join()

  • Kita ingin menghapus stop word dari data frame yang sudah ditata
  • Kita akan memakai join untuk melakukannya

Pengantar Analisis Teks di R

Menggunakan anti_join()

tidy_review2 <- review_data %>% 
  unnest_tokens(word, review) %>% 
  anti_join(stop_words)

tidy_review2
# A tibble: 78,868 x 4
   date     product                    stars word       
   <chr>    <chr>                      <dbl> <chr>      
 1 1/12/15  iRobot Roomba 650 for Pets     4 walk       
 2 1/12/15  iRobot Roomba 650 for Pets     4 rest       
# … with 78,866 more rows
Pengantar Analisis Teks di R

Menghitung kata lagi

tidy_review2 %>% 
  count(word) %>% 
  arrange(desc(n))
# A tibble: 9,672 x 2
   word         n
   <chr>    <int>
 1 roomba    2286
 2 clean     1204
 3 vacuum     989
# … with 9,669 more rows
Pengantar Analisis Teks di R

Ayo berlatih!

Pengantar Analisis Teks di R

Preparing Video For Download...