Farklı frekans ölçütleri

R ile Bag-of-Words ile Metin Madenciliği

Ted Kwartler

Instructor

Terim ağırlıkları

  • Varsayılan terim frekansı = basit kelime sayımı
  • Sık kelimeler içgörüleri gizleyebilir
  • Ağırlıkları TfIdf ile ayarlayın
  • Birçok belgede geçen kelimeler cezalandırılır

kelime bulutu

R ile Bag-of-Words ile Metin Madenciliği

Terim ağırlıkları

# Standard term weighting
tf_tdm <- TermDocumentMatrix(text_corp)
tf_tdm_m <- as.matrix(tf_dtm)
tf_tdm_m[505:510, 5:10]

tdf tablosu

# TfIdf weighting
tf_idf_tdm <- TermDocumentMatrix(text_corp, 
    control = list(weighting = weightTfIdf))
tf_idf_tdm_m <- as.matrix(tf_idf_dtm)
tf_tdm_m <- as.matrix(tf_dtm)

tf-idf tablosu

R ile Bag-of-Words ile Metin Madenciliği

Belge meta verilerini koruma

# İlk 2 sütun doc_id ve text olsun
names(tweets)[1:2] <- c('doc_id','text')

# Meta verilerle VCorpus oluşturun
test_corpus <- VCorpus(DataframeSource(tweets))
# Temizleyin ve sonucu görüntüleyin
text_corpus <- clean_corpus(text_corpus)
content(text_corpus[[1]])
$content
[1] "ayyytylerb true drink lots coffee"
meta(text_corpus[[1]])
$meta
  id      : 1
  author  : thejennagibson
  date    : 8/9/2013 2:43
  language: en
R ile Bag-of-Words ile Metin Madenciliği

Hadi pratik yapalım!

R ile Bag-of-Words ile Metin Madenciliği

Preparing Video For Download...