Tokenleştirme

R ile Doğal Dil İşlemeye Giriş

Kasey Jones

Research Data Scientist

Belirteçler nedir?

Yaygın tokenleştirme türleri:

  • karakterler
  • kelimeler
  • cümleler
  • belgeler
  • düzenli ifade ayırmaları
R ile Doğal Dil İşlemeye Giriş

tidytext paketi

Paket özeti:

  • "dplyr, ggplot2 ve diğer Tidy araçlarıyla Metin Madenciliği"
  • Tidy veri biçimini izler

Introduction to the Tidyverse

1 https://cran.r-project.org/web/packages/tidytext/index.html
R ile Doğal Dil İşlemeye Giriş

Animal Farm veri seti

animal_farm
# A tibble: 10 x 2
   chapter    text_column                                                                                                      
   <chr>      <chr>                                                                                                            
 1 Chapter 1  "Mr. Jones, of the Manor Farm, had locked ...
 2 Chapter 2  "Three nights later old Major died peacefully ...
 3 Chapter 3  "How they toiled and sweated to get the hay ...
...

1 https://en.wikipedia.org/wiki/Animal_Farm
R ile Doğal Dil İşlemeye Giriş

Tokenleştirme alıştırması

animal_farm %>%
  unnest_tokens(output = "word",
                input = text_column,
                token = "words")

Belirteç seçenekleri

  • sentences
  • lines
  • regex
  • words
  • ...
R ile Doğal Dil İşlemeye Giriş

Belirteçleri sayma

animal_farm %>%
  unnest_tokens(output = "word",
                token = "words",
                input = text_column) %>%
  count(word, sort = TRUE)
# A tibble: 4,076 x 2
   word      n
   <chr> <int>
 1 the    2187
 2 and     966
 3 of      899
 4 to      814
 ...
R ile Doğal Dil İşlemeye Giriş

Düzenli ifadelerle tokenleştirme

animal_farm %>%
  filter(chapter == 'Chapter 1') %>%
  unnest_tokens(output = "Boxer", input = text_column,
                token = "regex", pattern = "(?i)boxer") %>%
  slice(2:n())
# A tibble: 5 x 2
  chapter   Boxer                                                                                                                                 
  <chr>     <chr>                                                                                                                                 
2 Chapter 1 " and clover, came in together, walking very slowly and setting down their vast hairy hoofs with great care lest there should be some…
3 Chapter 1 " was an enormous beast, nearly eighteen hands high, and as strong as any two ordinary horses put together. a white stripe down his n…
4 Chapter 1 "; the two of them usually spent their sundays together in the small paddock beyond the orchard, grazing side by side and never speak…
...
R ile Doğal Dil İşlemeye Giriş

Biraz metin tokenleştirelim.

R ile Doğal Dil İşlemeye Giriş

Preparing Video For Download...