Metin temizleme ve ön işleme

R ile Bag-of-Words ile Metin Madenciliği

Ted Kwartler

Instructor

Yaygın ön işleme işlevleri

ön işleme işlevleri kopya.png

R ile Bag-of-Words ile Metin Madenciliği

Uygulamada ön işleme

ön işleme.png

# Bir vektör kaynağı oluşturun: coffee_source
coffee_source <- VectorSource(coffee_tweets)

# Geçici bir derlem oluşturun: coffee_corpus coffee_corpus <- VCorpus(coffee_source)
# Çeşitli ön işleme işlevlerini uygulayın tm_map(coffee_corpus, removeNumbers) tm_map(coffee_corpus, removePunctuation)
tm_map(coffee_corpus, content_transformer(replace_abbreviation))
R ile Bag-of-Words ile Metin Madenciliği

Başka bir ön işleme adımı: kök bulma

# Kelime köklerini bulun (stemming)
stem_words <- stemDocument(c("complicatedly", "complicated","complication"))
stem_words
"complic" "complic" "complic"
# Tek kelimelik sözlükle tamamlayın
stemCompletion(stem_words, c("complicate"))
     complic      complic      complic 
"complicate" "complicate" "complicate"
# Tüm derlemle tamamlayın
stemCompletion(stem_words, my_corpus)
R ile Bag-of-Words ile Metin Madenciliği

Haydi pratik yapalım!

R ile Bag-of-Words ile Metin Madenciliği

Preparing Video For Download...