Pemodelan topik pada tweet

Menganalisis Data Media Sosial dengan R

Vivek Vijayaraghavan

Data Science Coach

Ikhtisar Pelajaran

  • Dasar pemodelan topik
  • Buat document term matrix (DTM)
  • Bangun model topik dari DTM
Menganalisis Data Media Sosial dengan R

Topik dan Dokumen

Definisi topik dan contoh

Menganalisis Data Media Sosial dengan R

Topik dan Dokumen

Definisi dokumen dan contoh

Menganalisis Data Media Sosial dengan R

Pemodelan topik

  • Tugas menemukan topik secara otomatis
  • Ekstrak topik inti dari dataset besar
  • Ringkas informasi luas menjadi topik
Menganalisis Data Media Sosial dengan R

Cara kerja LDA

  • Algoritme Latent Dirichlet Allocation untuk pemodelan topik

Cara kerja LDA

Menganalisis Data Media Sosial dengan R

Cara kerja LDA

Cara kerja LDA

Menganalisis Data Media Sosial dengan R

Cara kerja LDA

Cara kerja LDA

Menganalisis Data Media Sosial dengan R

Document term matrix (DTM)

  • Buat document term matrix
  • DTM adalah representasi korpus dalam bentuk matriks
  • Dokumen sebagai baris, kata/term sebagai kolom

Document term matrix atau DTM

Menganalisis Data Media Sosial dengan R

Buat document term matrix

# Create a document term matrix
dtm <- DocumentTermMatrix(twt_corpus_refined)
Menganalisis Data Media Sosial dengan R

Buat document term matrix

# Inspect the DTM
inspect(dtm)
Menganalisis Data Media Sosial dengan R

Buat document term matrix

<<DocumentTermMatrix (documents: 1000, terms: 5079)>>
Non-/sparse entries: 12862/5066138
Sparsity           : 100%
Maximal term length: 29
Weighting          : term frequency (tf)
Sample             :
     Terms
Docs    california child diabetes fat food health people ranks rates weight
  131          0     0        0   0    0      0      0     0     0      0
  161          0     0        0   2    0      0      0     0     0      1
  295          0     0        0   0    1      0      1     0     0      0
  418          0     0        0   0    0      0      0     0     1      0
  604          0     0        1   0    0      1      0     0     0      0
Menganalisis Data Media Sosial dengan R

Menyiapkan DTM

  • Saring DTM untuk baris dengan jumlah baris > 0
# Find the sum of word counts in each Document 
rowTotals <- apply(dtm , 1, sum)
# Select rows from DTM with row totals greater than zero
tweet_dtm_new <- dtm[rowTotals> 0, ]
Menganalisis Data Media Sosial dengan R

Bangun model topik

  • Buat model topik dengan fungsi LDA()
# Build the topic model
library(topicmodels)
lda_5 <- LDA(tweet_dtm_new, k = 5)
Menganalisis Data Media Sosial dengan R

Bangun model topik

  • Mengekstrak 5 topik dari korpus tweet
# View top 10 terms in the topic model
top_10terms <- terms(lda_5,10)
top_10terms
Menganalisis Data Media Sosial dengan R

Lihat 10 term teratas dalam model topik

     Topic 1        Topic 2        Topic 3     Topic 4      Topic 5   
 [1,] "disease"      "people"       "black"     "child"      "weight"  
 [2,] "health"       "health"       "fat"       "rates"      "diet"    
 [3,] "cancer"       "diabetes"     "trump"     "ranks"      "food"    
 [4,] "meghanmccain" "overweight"   "childhood" "california" "diabetes"
 [5,] "realcandaceo" "fat"          "health"    "fat"        "health"  
 [6,] "food"         "meghanmccain" "professor" "eat"        "bmi"     
 [7,] "risk"         "realcandaceo" "gender"    "people"     "problem" 
 [8,] "heart"        "body"         "studies"   "epidemic"   "eating"  
 [9,] "weight"       "weight"       "healthy"   "health"     "disease" 
[10,] "diabetes"     "obese"        "problem"   "healthy"    "family"
  • Program penanganan obesitas dapat berfokus pada topik inti
Menganalisis Data Media Sosial dengan R

Ayo berlatih!

Menganalisis Data Media Sosial dengan R

Preparing Video For Download...