Membersihkan dan memroses teks

Text Mining dengan Bag-of-Words di R

Ted Kwartler

Instructor

Fungsi praproses umum

fungsi praproses umum

Praproses dalam praktik

praproses

# Buat sumber vektor: coffee_source
coffee_source <- VectorSource(coffee_tweets)

# Buat korpus volatil: coffee_corpus
coffee_corpus <- VCorpus(coffee_source)

# Terapkan berbagai fungsi praproses
tm_map(coffee_corpus, removeNumbers)
tm_map(coffee_corpus, removePunctuation)

tm_map(coffee_corpus, content_transformer(replace_abbreviation))

Langkah praproses lain: stemming kata

# Stem kata
stem_words <- stemDocument(c("complicatedly", "complicated","complication"))
stem_words

"complic" "complic" "complic"

# Lengkapi kata dengan kamus satu kata
stemCompletion(stem_words, c("complicate"))

     complic      complic      complic 
"complicate" "complicate" "complicate"

# Lengkapi kata dengan seluruh korpus
stemCompletion(stem_words, my_corpus)

Ayo berlatih!

Text Mining dengan Bag-of-Words di R