Kelime sayımı grafiklerini iyileştirme

R ile Metin Analizine Giriş

Maham Faisal Khan

Senior Data Science Content Developer

Özel durak sözcükleri

stop_words
# A tibble: 1,149 x 2
   word        lexicon
   <chr>       <chr>  
 1 a           SMART  
 2 a's         SMART  
 3 able        SMART  
 4 about       SMART  
 5 above       SMART  
# … 1.144 satır daha var
R ile Metin Analizine Giriş

tribble() kullanma

tribble(
  ~word,    ~lexicon,
  "roomba", "CUSTOM",
  "2",      "CUSTOM"
)
# A tibble: 2 x 2
  word   lexicon
  <chr>  <chr>  
1 roomba CUSTOM 
2 2      CUSTOM
R ile Metin Analizine Giriş

bind_rows() kullanma

custom_stop_words <- tribble(
  ~word,    ~lexicon,
  "roomba", "CUSTOM",
  "2",      "CUSTOM"
)

stop_words2 <- stop_words %>% bind_rows(custom_stop_words)
R ile Metin Analizine Giriş

Durak sözcükleri yeniden kaldırma

tidy_review <- review_data %>% 
  mutate(id = row_number()) %>% 
  select(id, date, product, stars, review) %>% 
  unnest_tokens(word, review) %>% 
  anti_join(stop_words2)

tidy_review %>% filter(word == "roomba")
# A tibble: 0 x 5
# … 5 değişken var: id <int>, date <chr>, product <chr>, stars <dbl>, word <chr>
R ile Metin Analizine Giriş

Faktörler

R ile Metin Analizine Giriş

fct_reorder() kullanma

word_counts <- tidy_review %>% 
  count(word) %>% 
  filter(n > 300) %>% 
  mutate(word2 = fct_reorder(word, n))
R ile Metin Analizine Giriş

fct_reorder() kullanma

word_counts
# A tibble: 23 x 3
   word         n word2   
   <chr>    <int> <fct>   
 1 880        525 880     
 2 bin        428 bin     
# … 21 satır daha var
R ile Metin Analizine Giriş

Çubuk grafiği sıralama

ggplot(
  word_counts, aes(x = word2, y = n)
) +
  geom_col() +
  coord_flip() +
  ggtitle("İnceleme Kelime Sayımları")

R ile Metin Analizine Giriş

Hadi pratik yapalım!

R ile Metin Analizine Giriş

Preparing Video For Download...