Topic modeling dei tweet

Analisi dei dati dei social media in R

Vivek Vijayaraghavan

Data Science Coach

Panoramica della lezione

  • Fondamenti del topic modeling
  • Crea una document term matrix (DTM)
  • Crea un topic model dalla DTM
Analisi dei dati dei social media in R

Topic e Documento

Definizione di topic ed esempio

Analisi dei dati dei social media in R

Topic e Documento

Definizione di documento ed esempio

Analisi dei dati dei social media in R

Topic modeling

  • Compito di scoprire automaticamente i topic
  • Estrai i temi chiave da grandi dataset
  • Riassumi velocemente molte info in topic
Analisi dei dati dei social media in R

Come funziona LDA

  • Algoritmo LDA (Latent Dirichlet Allocation) per il topic modeling

Come funziona LDA

Analisi dei dati dei social media in R

Come funziona LDA

Come funziona LDA

Analisi dei dati dei social media in R

Come funziona LDA

Come funziona LDA

Analisi dei dati dei social media in R

Document term matrix (DTM)

  • Crea una document term matrix
  • La DTM è la rappresentazione a matrice di un corpus
  • Documenti nelle righe, parole/termini nelle colonne

Document term matrix o DTM

Analisi dei dati dei social media in R

Crea una document term matrix

# Create a document term matrix
dtm <- DocumentTermMatrix(twt_corpus_refined)
Analisi dei dati dei social media in R

Crea una document term matrix

# Inspect the DTM
inspect(dtm)
Analisi dei dati dei social media in R

Crea una document term matrix

<<DocumentTermMatrix (documents: 1000, terms: 5079)>>
Non-/sparse entries: 12862/5066138
Sparsity           : 100%
Maximal term length: 29
Weighting          : term frequency (tf)
Sample             :
     Terms
Docs    california child diabetes fat food health people ranks rates weight
  131          0     0        0   0    0      0      0     0     0      0
  161          0     0        0   2    0      0      0     0     0      1
  295          0     0        0   0    1      0      1     0     0      0
  418          0     0        0   0    0      0      0     0     1      0
  604          0     0        1   0    0      1      0     0     0      0
Analisi dei dati dei social media in R

Preparare la DTM

  • Filtra la DTM per le righe con somma di riga > 0
# Find the sum of word counts in each Document 
rowTotals <- apply(dtm , 1, sum)
# Select rows from DTM with row totals greater than zero
tweet_dtm_new <- dtm[rowTotals> 0, ]
Analisi dei dati dei social media in R

Crea il topic model

  • Crea il topic model con la funzione LDA()
# Build the topic model
library(topicmodels)
lda_5 <- LDA(tweet_dtm_new, k = 5)
Analisi dei dati dei social media in R

Crea il topic model

  • Estratti 5 topic dal corpus di tweet
# View top 10 terms in the topic model
top_10terms <- terms(lda_5,10)
top_10terms
Analisi dei dati dei social media in R

Vedi i 10 termini principali del topic model

     Topic 1        Topic 2        Topic 3     Topic 4      Topic 5   
 [1,] "disease"      "people"       "black"     "child"      "weight"  
 [2,] "health"       "health"       "fat"       "rates"      "diet"    
 [3,] "cancer"       "diabetes"     "trump"     "ranks"      "food"    
 [4,] "meghanmccain" "overweight"   "childhood" "california" "diabetes"
 [5,] "realcandaceo" "fat"          "health"    "fat"        "health"  
 [6,] "food"         "meghanmccain" "professor" "eat"        "bmi"     
 [7,] "risk"         "realcandaceo" "gender"    "people"     "problem" 
 [8,] "heart"        "body"         "studies"   "epidemic"   "eating"  
 [9,] "weight"       "weight"       "healthy"   "health"     "disease" 
[10,] "diabetes"     "obese"        "problem"   "healthy"    "family"
  • Un programma per la gestione dell’obesità può basarsi su un topic centrale
Analisi dei dati dei social media in R

Passiamo alla pratica !

Analisi dei dati dei social media in R

Preparing Video For Download...