Modelleme için metni hazırlama

R ile Doğal Dil İşlemeye Giriş

Kasey Jones

Research Data Scientist

R'da denetimli öğrenme: sınıflandırma

R'da Denetimli Öğrenme: Sınıflandırma

Sınıflandırma modellemesi

denetimli öğrenme yaklaşımı
gözlemleri kategorilere sınıflandırır
- kazanma/kaybetme
- tehlikeli, arkadaşça veya kayıtsız
çeşitli teknikler kullanılabilir:
- lojistik regresyon
- karar ağaçları/random forest/xgboost
- sinir ağları
- vb.

Modelleme temel adımları

Veriyi temizleyin/hazırlayın
Eğitim ve test veri kümeleri oluşturun
Modeli eğitim verisiyle eğitin
Doğruluğu test verisi üzerinde raporlayın

Karakter tanıma

Napoleon

Boxer Boxer

¹ https://comicvine.gamespot.com/napoleon/4005-141035/ ² https://hero.fandom.com/wiki/Boxer_(Animal_Farm)

Hayvan cümleleri

# Cümleleri oluşturun
sentences <- animal_farm %>%
  unnest_tokens(output = "sentence", token = "sentences", input = text_column)

# Cümleleri hayvana göre etiketleyin
sentences$boxer <- grepl('boxer', sentences$sentence)
sentences$napoleon <- grepl('napoleon', sentences$sentence)

# Hayvan adını değiştirin
sentences$sentence <- gsub("boxer", "animal X", sentences$sentence)
sentences$sentence <- gsub("napoleon", "animal X", sentences$sentence)
animal_sentences <- sentences[sentences$boxer + sentences$napoleon == 1, ]

Cümleler devam

animal_sentences$Name <-
    as.factor(ifelse(animal_sentences$boxer, "boxer", "napoleon"))

# Her birinden 75
animal_sentences <- 
  rbind(animal_sentences[animal_sentences$Name == "boxer", ][c(1:75), ],
        animal_sentences[animal_sentences$Name == "napoleon", ][c(1:75), ])
animal_sentences$sentence_id <- c(1:dim(animal_sentences)[1])

Veriyi hazırlama

library(tm); library(tidytext)
library(dplyr); library(SnowballC)

animal_tokens <- animal_sentences %>%
  unnest_tokens(output = "word", token = "words", input = sentence) %>%
  anti_join(stop_words) %>%
  mutate(word = wordStem(word))

Hazırlık devam

animal_matrix <- animal_tokens %>%
  count(sentence_id, word) %>%
  cast_dtm(document = sentence_id, term = word,
           value = n, weighting = tm::weightTfIdf)
animal_matrix

<<DocumentTermMatrix (documents: 150, terms: 694)>>
Non-/sparse entries: 1235/102865
Sparsity           : 99%
Maximal term length: 17
Weighting          : term frequency - inverse document frequency

Seyrek terimleri kaldırma

Dolu (1.235) + boş (102.865)
Matris boyutları 150 × 694
Seyreklik: 102.865 / 104.100 (%99)

Çözüm: removeSparseTerms()

Ne kadar seyrek fazla seyrektir?

removeSparseTerms(animal_matrix, sparse = .90)

<<DocumentTermMatrix (documents: 150, terms: 4)>>
Non-/sparse entries: 207/393
Sparsity           : 66%

removeSparseTerms(animal_matrix, sparse = .99)

removeSparseTerms(animal_matrix, sparse = .99)
<<DocumentTermMatrix (documents: 150, terms: 172)>>
Non-/sparse entries: 713/25087
Sparsity           : 97%

Hadi pratik yapalım!

R ile Doğal Dil İşlemeye Giriş