Metin temizleme temelleri

R ile Doğal Dil İşlemeye Giriş

Kasey Jones

Research Data Scientist

Rus tweet veri seti

3 Milyon Rus Trol Tweeti

Russian Trol Tweetleri veri seti fivethirtyeight tarafından sağlanır ve 2016 ABD seçim döngüsünde üretilen 3 milyon bot tweetinden oluşur.

  • İlk 20.000 tweeti inceleyeceğiz
  • Veriler: tweet, takipçi, takip edilen, yayın tarihi, hesap türü vb.
  • Konu modelleme, sınıflandırma, adlandırılmış varlık tanıma vb. için ideal
1 https://github.com/fivethirtyeight/russian-troll-tweets
R ile Doğal Dil İşlemeye Giriş

En sık geçen kelimeler

library(tidytext); library(dplyr)
russian_tweets %>%
  unnest_tokens(word, content) %>%
  count(word, sort = TRUE)
# A tibble: 44,318 x 2
   word      n
   <chr> <int>
 1 t.co  18121
 2 https 16003
 3 the    7226
 4 to     5279
 ...
R ile Doğal Dil İşlemeye Giriş

Durdurma kelimelerini kaldırma

tidy_tweets <- russian_tweets %>%
  unnest_tokens(word, content) %>%
  anti_join(stop_words)
tidy_tweets %>%
  count(word, sort = TRUE)
 1 t.co             18121
 2 https            16003
 3 http              2135
 4 blacklivesmatter  1292
 5 trump             1004
 ...
# A tibble: 1,149 x 2
   word        lexicon
   <chr>       <chr>  
 1 a           SMART  
 2 a's         SMART  
 3 able        SMART  
 4 about       SMART  
 5 above       SMART
R ile Doğal Dil İşlemeye Giriş

Özel durdurma kelimeleri

custom <- add_row(stop_words, word = "https", lexicon = "custom")
custom <- add_row(custom, word = "http", lexicon = "custom")
custom <- add_row(custom, word = "t.co", lexicon = "custom")
russian_tweets %>%
  unnest_tokens(word, content) %>%
  anti_join(custom) %>%
  count(word, sort = TRUE)
R ile Doğal Dil İşlemeye Giriş

Nihai sonuçlar

# A tibble: 43,663 x 2
   word                 n
   <chr>            <int>
 1 blacklivesmatter  1292
 2 trump             1004
 3 black              781
 4 enlist             764
 5 police             745
 6 people             723
 7 cops               693
R ile Doğal Dil İşlemeye Giriş

Gövdeleme (Stemming)

  • enlisted ---> enlist
  • enlisting ---> enlist
library(SnowballC)
tidy_tweets <- russian_tweets %>%
  unnest_tokens(word, content) %>%
  anti_join(custom)
# Gövdeleme (stemming)
stemmed_tweets <- tidy_tweets %>%
  mutate(word = wordStem(word))
R ile Doğal Dil İşlemeye Giriş

Gövdeleme sonuçları

# A tibble: 38,907 x 2
   word               n
   <chr>          <int>
 1 blacklivesmatt  1301
 2 cop             1016
 3 trump           1013
 4 black            848
 5 enlist           809
 6 polic            763
 7 peopl            730
R ile Doğal Dil İşlemeye Giriş

Örnek zamanı.

R ile Doğal Dil İşlemeye Giriş

Preparing Video For Download...