Pulizia e preelaborazione del testo

Text mining con Bag-of-Words in R

Ted Kwartler

Instructor

Funzioni di preelaborazione comuni

funzioni di preelaborazione copy.png

Text mining con Bag-of-Words in R

Preelaborazione in pratica

preelaborazione.png

# Crea un vettore sorgente: coffee_source
coffee_source <- VectorSource(coffee_tweets)

# Crea un corpus volatile: coffee_corpus coffee_corpus <- VCorpus(coffee_source)
# Applica varie funzioni di preelaborazione tm_map(coffee_corpus, removeNumbers) tm_map(coffee_corpus, removePunctuation)
tm_map(coffee_corpus, content_transformer(replace_abbreviation))
Text mining con Bag-of-Words in R

Altro passo di preelaborazione: stemming

# Stemming delle parole
stem_words <- stemDocument(c("complicatedly", "complicated","complication"))
stem_words
"complic" "complic" "complic"
# Completamento con dizionario a parola singola
stemCompletion(stem_words, c("complicate"))
     complic      complic      complic 
"complicate" "complicate" "complicate"
# Completamento usando l’intero corpus
stemCompletion(stem_words, my_corpus)
Text mining con Bag-of-Words in R

Facciamo pratica!

Text mining con Bag-of-Words in R

Preparing Video For Download...