Bag-of-words

Sentimentanalyse in Python

Violeta Misheva

Data Scientist

Wat is bag-of-words (BOW)?

 

  • Beschrijft hoe vaak woorden voorkomen in een document of corpus

  • Bouwt een vocabulaire en een maat voor aanwezigheid

Sentimentanalyse in Python

Amazon-productreviews

top 10 rijen van de Amazon-productreviews-dataset

Sentimentanalyse in Python

Sentimentanalyse met BOW: voorbeeld

This is the best book ever. I loved the book and highly recommend it!!!

{'This': 1, 'is': 1, 'the': 2 , 'best': 1 , 'book': 2, 
'ever': 1, 'I':1 , 'loved':1 , 'and': 1  , 'highly': 1,
'recommend': 1 , 'it': 1 }
  • Woordvolgorde en grammatica gaan verloren!
Sentimentanalyse in Python

BOW-eindresultaat

  • De output ziet er ongeveer zo uit:

top 5 rijen van een dataset met BOW-uitvoer

Sentimentanalyse in Python

CountVectorizer-functie

import pandas as pd
from sklearn.feature_extraction.text import CountVectorizer
vect = CountVectorizer(max_features=1000) 
vect.fit(data.review)
X = vect.transform(data.review)
Sentimentanalyse in Python

CountVectorizer-uitvoer

X
<10000x1000 sparse matrix of type '<class 'numpy.int64'>' 
  with 406668 stored elements in Compressed Sparse Row format>

Sentimentanalyse in Python

De vectorizer transformeren

# Transform to an array
my_array = X.toarray()
# Transform back to a DataFrame, assign column names
X_df = pd.DataFrame(my_array, columns=vect.get_feature_names())
Sentimentanalyse in Python

Laten we oefenen!

Sentimentanalyse in Python

Preparing Video For Download...