Torba-sözcük (bag-of-words) gösterimi

R ile Doğal Dil İşlemeye Giriş

Kasey Jones

Research Data Scientist

Önceki örnek

animal_farm %>%
  unnest_tokens(output = "word", token = "words",
                input = text_column) %>%
  anti_join(stop_words) %>%
  count(word, sort = TRUE)
# A tibble: 3,611 x 2
   word         n
   <chr>    <int>
 1 animals    248
 2 farm       163
 ...
R ile Doğal Dil İşlemeye Giriş

Torba-sözcük (bag-of-words) gösterimi

text1 <- c("Few words are important.")
text2 <- c("All words are important.")
text3 <- c("Most words are important.")

Benzersiz sözcükler:

  • few: yalnızca text1 içinde
  • all: yalnızca text2 içinde
  • most: yalnızca text3 içinde
  • words, are, important
R ile Doğal Dil İşlemeye Giriş

Tipik vektör gösterimleri

# Küçük harf, durak sözcükler olmadan
word_vector <- c("few", "all", "most", "words", "important")
# text1 için gösterim
text1 <- c("Few words are important.")
text1_vector <- c(1, 0, 0, 1, 1)
# text2 için gösterim
text2 <- c("All words are important.")
text2_vector <- c(0, 1, 0, 1, 1)
# text3 için gösterim
text3 <- c("Most words are important.")
text3_vector <- c(0, 0, 1, 1, 1)
R ile Doğal Dil İşlemeye Giriş

tidytext gösterimi

words <- animal_farm %>%
    unnest_tokens(output = "word", token = "words", input = text_column) %>%
    anti_join(stop_words) %>%
    count(chapter, word, sort = TRUE)
words
# A tibble: 6,807 x 3
   chapter    word         n
   <chr>      <chr>    <int>
 1 Chapter 8  napoleon    43
 2 Chapter 8  animals     41
 3 Chapter 9  boxer       34
...
R ile Doğal Dil İşlemeye Giriş

Tek sözcük örneği

words %>%
  filter(word == 'napoleon') %>%
  arrange(desc(n))
# A tibble: 9 x 3
  chapter    word         n
  <chr>      <chr>    <int>
1 Chapter 8  napoleon    43
2 Chapter 7  napoleon    24
3 Chapter 5  napoleon    22
...
8 Chapter 3  napoleon     3
9 Chapter 4  napoleon     1
R ile Doğal Dil İşlemeye Giriş

Seyrek (sparse) matrisler

library(tidytext); library(dplyr)
russian_tweets <- read.csv("russian_1.csv")
russian_tweets <- as_tibble(russian_tweets)

tidy_tweets <- russian_tweets %>%
  unnest_tokens(word, content) %>%
  anti_join(stop_words)
tidy_tweets %>%
  count(word, sort = TRUE)
# A tibble: 43,666 x 2
...
R ile Doğal Dil İşlemeye Giriş

Seyrek matrisler (devam)

Seyrek Matris

  • 20.000 satır (tweet)
  • 43.000 sütun (sözcük)
  • 20.000 * 43.000 = 860.000.000
  • Yalnızca 177.000 sıfır olmayan değer. Yaklaşık %0,02

Seyrek matris örneği: Seyrek matrislerde çok az sayıda sıfır olmayan değer vardır. Görüntü çoğunlukla sıfırlardan oluşur.

R ile Doğal Dil İşlemeye Giriş

BoW Alıştırması

R ile Doğal Dil İşlemeye Giriş

Preparing Video For Download...