Alles samenbrengen

Sentimentanalyse in Python

Violeta Misheva

Data Scientist

Het sentimentanalyse‑probleem

Sentimentanalyse: het vaststellen van de mening van een auteur over een onderwerp

  • Filmrecensies
  • Amazon‑productrecensies
  • Twitter‑sentiment over luchtvaart
  • Diverse emotioneel geladen literaire voorbeelden
Sentimentanalyse in Python

Verkenning van de recensies

  • Basisinfo over lengte van recensies
  • Word clouds
  • Features voor recensielengte: aantal woorden, aantal zinnen
  • Feature om de taal van een recensie te detecteren
Sentimentanalyse in Python

Numerieke transformaties van sentimentdragende kolommen

  • Bag‑of‑words
  • Tf‑idf‑vectorisatie
from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer
# Syntax van vectorizer
vect = CountVectorizer().fit(data.text_column)
X = vect.transform(data.text_column)
Sentimentanalyse in Python

Argumenten van de vectorizers

  • stopwoorden: niet‑informatieve, veelvoorkomende woorden
  • n‑grambereik: gebruik zinsdelen, niet alleen losse woorden
  • vocabulairegrootte sturen: max_features, max_df, min_df
  • patrooncaptatie van tokens: cijfers of bepaalde tekens verwijderen

Belangrijk maar GEEN argumenten van de vectorizers

  • lemmata en stammen
Sentimentanalyse in Python

Supervised learning‑model

  • Logistische‑regressieclassifier om sentiment te voorspellen
  • Beoordeeld met accuracy en confusion matrix
  • Belang van train/test‑split
Sentimentanalyse in Python

Laten we oefenen!

Sentimentanalyse in Python

Preparing Video For Download...