Menangkap pola token

Analisis Sentimen dengan Python

Violeta Misheva

Data Scientist

Operator dan perbandingan string

# Memeriksa apakah string hanya berisi huruf  
my_string.isalpha()
# Memeriksa apakah string hanya berisi digit 
my_string.isdigit()
# Memeriksa apakah string hanya berisi karakter alfanumerik
my_string.isalnum()
Analisis Sentimen dengan Python

Operator string dengan list comprehension

# Tokenisasi kata asli
word_tokens = [word_tokenize(review) for review in reviews.review]
# Hanya menyisakan token yang terdiri dari huruf
cleaned_tokens = [[word for word in item if word.isalpha()] for item in word_tokens]
len(word_tokens[0])
87
len(cleaned_tokens[0])
78
Analisis Sentimen dengan Python

Ekspresi reguler

import re
my_string = '#Wonderfulday'
# Ekstrak #, diikuti huruf apa pun, kecil atau besar
x = re.search('#[A-Za-z]', my_string)
x
<re.Match object; span=(0, 2), match='#W'>
Analisis Sentimen dengan Python

Pola token dengan BOW

# Pola token bawaan di CountVectorizer
'\b\w\w+\b'
# Tentukan pola token tertentu
CountVectorizer(token_pattern=r'\b[^\d\W][^\d\W]+\b')
Analisis Sentimen dengan Python

Ayo berlatih!

Analisis Sentimen dengan Python

Preparing Video For Download...