Visualizza i termini più usati

Analisi dei dati dei social media in R

Vivek Vijayaraghavan

Data Science Coach

Panoramica della lezione

  • Estrai i termini più frequenti dal corpus di testo
  • Rimuovi stop word personalizzate e ripulisci il corpus
  • Visualizza i termini popolari con grafico a barre e word cloud
Analisi dei dati dei social media in R

Frequenza dei termini

  • Estrai la frequenza dei termini, cioè il numero di occorrenze di ogni parola
# Extract term frequency
library(qdap)
term_count  <-  freq_terms(twt_corpus_final, 60)
term_count
Analisi dei dati dei social media in R

Frequenza dei termini

Frequenza dei termini

Analisi dei dati dei social media in R

Rimozione di stop word personalizzate

# Create a vector of custom stop words
custom_stop <- c("obesity", "can", "amp", "one", "like", "will", "just", 
                "many", "new", "know", "also", "need", "may", "now", 
                "get", "s", "t", "m", "re")
# Remove custom stop words
twt_corpus_refined <- tm_map(twt_corpus_final,removeWords, custom_stop)
Analisi dei dati dei social media in R

Conteggio termini dopo la pulizia del corpus

# Term count after refining corpus
term_count_clean <- freq_terms(twt_corpus_refined, 20)
term_count_clean
Analisi dei dati dei social media in R

Frequenza termini dopo la pulizia del corpus

Frequenza termini dopo la pulizia del corpus

  • Un brand che promuove un programma contro l’obesità può analizzare questi termini
Analisi dei dati dei social media in R

Grafico a barre dei termini popolari

  • Crea un grafico a barre dei termini con oltre 50 occorrenze
  • I grafici a barre riassumono i termini popolari in modo chiaro
# Create a subset dataframe
term50 <- subset(term_count_clean, FREQ > 50)
Analisi dei dati dei social media in R

Grafico a barre dei termini più popolari

library(ggplot2)
# Create a bar plot of frequent terms
ggplot(term50, aes(x = reorder(WORD,  -FREQ),  y = FREQ)) +
       geom_bar(stat = "identity", fill = "blue") + 
       theme(axis.text.x = element_text(angle = 45, hjust = 1))
Analisi dei dati dei social media in R

Grafico a barre dei termini popolari

Grafico a barre dei termini popolari

Analisi dei dati dei social media in R

Word cloud

  • Visualizza i termini frequenti con le word cloud
  • Una word cloud è un’immagine composta da parole
  • La dimensione indica la frequenza
  • Immagine promozionale efficace per campagne
  • Comunica il messaggio del brand e mette in evidenza i termini popolari
Analisi dei dati dei social media in R

Word cloud basata su frequenza minima

  • La funzione wordcloud() crea word cloud
# Create a word cloud based on min frequency
library(wordcloud)
wordcloud(twt_corpus_refined, min.freq = 20, colors = "red", 
          scale = c(3,0.5), random.order = FALSE)
Analisi dei dati dei social media in R

Word cloud basata su frequenza minima

Word cloud basata su frequenza minima

Analisi dei dati dei social media in R

Word cloud colorata

# Create a colorful word cloud
library(RColorBrewer)
wordcloud(twt_corpus_refined, max.words = 100, 
          colors = brewer.pal(6,"Dark2"), scale = c(2.5,.5),
          random.order = FALSE)
Analisi dei dati dei social media in R

Word cloud colorata

Word cloud con colori diversi

Analisi dei dati dei social media in R

Passiamo alla pratica !

Analisi dei dati dei social media in R

Preparing Video For Download...