Tokenleştirme ve temizleme

R ile Metin Analizine Giriş

Maham Faisal Khan

Senior Data Science Content Developer

tidytext kullanımı

R ile Metin Analizine Giriş

Metni tokenleştirme

Bazı doğal dil işleme (NLP) terimleri:

  • Kelime torbası: Belgede kelimeler bağımsızdır
  • Ayrı her metin gövdesi bir belgedir
  • Her benzersiz kelime bir terimdir
  • Bir terimin her görüldüğü yer bir belirteçtir (token)
  • Kelime torbası oluşturma işlemine tokenleştirme denir
R ile Metin Analizine Giriş

unnest_tokens() kullanımı

tidy_review <- review_data %>% 
  unnest_tokens(word, review)

tidy_review
# A tibble: 229,481 x 4
   date    product                    stars word   
   <chr>   <chr>                      <dbl> <chr>  
 1 2/28/15 iRobot Roomba 650 for Pets     5 you    
 2 2/28/15 iRobot Roomba 650 for Pets     5 would  
 3 2/28/15 iRobot Roomba 650 for Pets     5 not    
# … with 229,478 more rows
R ile Metin Analizine Giriş

Kelime sayımı

tidy_review %>% 
  count(word) %>% 
  arrange(desc(n))
# A tibble: 10,310 x 2
   word      n
   <chr> <int>
 1 the   11785
 2 it     7905
 3 and    6794
# … with 10,307 more rows
R ile Metin Analizine Giriş

anti_join() kullanımı

  • Temizlenmiş veri çerçevemizden durak kelimeleri kaldırmak istiyoruz
  • Bunu yapmak için join kullanacağız

R ile Metin Analizine Giriş

anti_join() kullanımı

tidy_review2 <- review_data %>% 
  unnest_tokens(word, review) %>% 
  anti_join(stop_words)

tidy_review2
# A tibble: 78,868 x 4
   date     product                    stars word       
   <chr>    <chr>                      <dbl> <chr>      
 1 1/12/15  iRobot Roomba 650 for Pets     4 walk       
 2 1/12/15  iRobot Roomba 650 for Pets     4 rest       
# … with 78,866 more rows
R ile Metin Analizine Giriş

Yeniden kelime sayımı

tidy_review2 %>% 
  count(word) %>% 
  arrange(desc(n))
# A tibble: 9,672 x 2
   word         n
   <chr>    <int>
 1 roomba    2286
 2 clean     1204
 3 vacuum     989
# … with 9,669 more rows
R ile Metin Analizine Giriş

Hadi pratik yapalım!

R ile Metin Analizine Giriş

Preparing Video For Download...