Sınıflandırma modelleme

R ile Doğal Dil İşlemeye Giriş

Kasey Jones

Research Data Scientist

Adımların özeti

  1. Veriyi temizleyin/hazırlayın

    • Boxer/Napoleon cümlelerine filtreleyin
    • Kelimelerin temizlenmiş token'larını oluşturun
    • TFIDF ağırlıklı doküman-terim matrisi oluşturun
  2. Eğitim ve test kümeleri oluşturun

  3. Eğitim kümesinde bir model eğitin
  4. Test kümesinde doğruluğu raporlayın
R ile Doğal Dil İşlemeye Giriş

Adım 2: veriyi bölün

set.seed(1111)
sample_size <- floor(0.80 * nrow(animal_matrix))
train_ind <- sample(nrow(animal_matrix), size = sample_size)
train <- animal_matrix[train_ind, ]
test <- animal_matrix[-train_ind, ]
R ile Doğal Dil İşlemeye Giriş

Rastgele orman modelleri

R ile Doğal Dil İşlemeye Giriş

Sınıflandırma örneği

library(randomForest)
rfc <- randomForest(x = as.data.frame(as.matrix(train)), 
                    y = animal_sentences$Name[train_ind], nTree = 50)
rfc
Call:
 randomForest(...
        OOB estimate of  error rate: 23.33%
Confusion matrix:
         boxer napoleon class.error
boxer       37       20   0.3508772
napoleon     8       55   0.1269841
R ile Doğal Dil İşlemeye Giriş

Karmaşıklık matrisi

Call:
 randomForest(...
        OOB estimate of  error rate: 23.33%
Confusion matrix:
         boxer napoleon class.error
boxer       37       20   0.3508772
napoleon     8       55   0.1269841

Doğruluk: (37 + 55) / (37 + 20 + 8 + 55) = %76

R ile Doğal Dil İşlemeye Giriş

Test kümesi tahminleri

y_pred <- predict(rfc, newdata = as.data.frame(as.matrix(test)))
table(animal_sentences[-train_ind, ]$Name, y_pred)
          y_pred
           boxer napoleon
  boxer       14        4
  napoleon     2       10
  • Boxer için doğruluk: 14/18
  • Napoleon için doğruluk: 10/12
  • Genel doğruluk: 24/30 = %80
R ile Doğal Dil İşlemeye Giriş

Sınıflandırma alıştırması

R ile Doğal Dil İşlemeye Giriş

Preparing Video For Download...