Fijner werken met n-grams

Sentimentanalyse in Python

Violeta Misheva

Data Scientist

Context doet ertoe

Ik ben blij, niet verdrietig.

Ik ben verdrietig, niet blij.

Het weer vandaag is geweldig.

from sklearn.feature_extraction.text import CountVectorizer

vect = CountVectorizer(ngram_range=(min_n, max_n))

# Alleen unigrams
ngram_range=(1, 1)

# Uni- en bigrams
ngram_range=(1, 2)

CountVectorizer(max_features, max_df, min_df)

max_features: neem alleen de meest frequente woorden op
- Als max_features = None, worden alle woorden opgenomen
max_df: negeer termen boven een ingestelde frequentie
- Als integer: absolute telling; als float: proportie
- Standaard is 1.0, dus er wordt niets genegeerd
min_df: negeer termen onder een ingestelde frequentie
- Als integer: absolute telling; als float: proportie
- Standaard is 1.0, dus er wordt niets genegeerd

Sentimentanalyse in Python