Een tokenpatroon vastleggen

Sentimentanalyse in Python

Violeta Misheva

Data Scientist

String-operators en vergelijkingen

# Controleert of een string alleen uit letters bestaat  
my_string.isalpha()
# Controleert of een string alleen uit cijfers bestaat 
my_string.isdigit()
# Controleert of een string alleen alfanumeriek is
my_string.isalnum()
Sentimentanalyse in Python

String-operators met list comprehension

# Oorspronkelijke woord-tokenization
word_tokens = [word_tokenize(review) for review in reviews.review]
# Alleen tokens met letters behouden
cleaned_tokens = [[word for word in item if word.isalpha()] for item in word_tokens]
len(word_tokens[0])
87
len(cleaned_tokens[0])
78
Sentimentanalyse in Python

Reguliere expressies

import re
my_string = '#Wonderfulday'
# Haal # op, gevolgd door een letter, klein of hoofdletter
x = re.search('#[A-Za-z]', my_string)
x
<re.Match object; span=(0, 2), match='#W'>
Sentimentanalyse in Python

Tokenpatroon met een BOW

# Standaard tokenpatroon in CountVectorizer
'\b\w\w+\b'
# Specifiek tokenpatroon opgeven
CountVectorizer(token_pattern=r'\b[^\d\W][^\d\W]+\b')
Sentimentanalyse in Python

Laten we oefenen!

Sentimentanalyse in Python

Preparing Video For Download...