Criteri di frequenza diversi

Text mining con Bag-of-Words in R

Ted Kwartler

Instructor

Pesi dei termini

Frequenza di default = semplice conteggio parole
Le parole frequenti possono nascondere insight
Regola i pesi con TfIdf
Penalizza le parole presenti in molti documenti

Pesi dei termini

# Standard term weighting
tf_tdm <- TermDocumentMatrix(text_corp)
tf_tdm_m <- as.matrix(tf_dtm)
tf_tdm_m[505:510, 5:10]

# TfIdf weighting
tf_idf_tdm <- TermDocumentMatrix(text_corp, 
    control = list(weighting = weightTfIdf))
tf_idf_tdm_m <- as.matrix(tf_idf_dtm)
tf_tdm_m <- as.matrix(tf_dtm)

Mantenere i metadati del documento

# Ensure the first 2 columns are doc_id & text
names(tweets)[1:2] <- c('doc_id','text')

# Create VCorpus including metadata
test_corpus <- VCorpus(DataframeSource(tweets))

# Clean and view results
text_corpus <- clean_corpus(text_corpus)
content(text_corpus[[1]])

$content
[1] "ayyytylerb true drink lots coffee"

meta(text_corpus[[1]])

$meta
  id      : 1
  author  : thejennagibson
  date    : 8/9/2013 2:43
  language: en

Passiamo alla pratica!

Text mining con Bag-of-Words in R