Bangun fitur baru dari teks

Analisis Sentimen dengan Python

Violeta Misheva

Data Scientist

Tujuan video

 

Tujuan: Memperkaya dataset dengan fitur dari kolom teks (menangkap sentimen)

Analisis Sentimen dengan Python

Data ulasan produk

reviews.head()

5 baris teratas ulasan produk Amazon

Analisis Sentimen dengan Python

Fitur dari kolom ulasan

 

  • Seberapa panjang tiap ulasan?
  • Berapa banyak kalimat di dalamnya?
  • Kelas kata apa yang terlibat?
  • Berapa banyak tanda baca?
Analisis Sentimen dengan Python

Tokenisasi string

from nltk import word_tokenize
anna_k = 'Happy families are all alike, every unhappy family is unhappy in its own way.'
word_tokenize(anna_k)

['Happy','families','are', 'all','alike',',',
 'every','unhappy', 'family', 'is','unhappy','in',
 'its','own','way','.']
Analisis Sentimen dengan Python

Token dari kolom

# General form of list comprehension
[expression for item in iterable]
word_tokens = [word_tokenize(review) for review in reviews.review]
type(word_tokens)
list
type(word_tokens[0])
list
Analisis Sentimen dengan Python

Token dari kolom

len_tokens = []

# Iterate over the word_tokens list
for i in range(len(word_tokens)):
     len_tokens.append(len(word_tokens[i]))

# Create a new feature for the length of each review
reviews['n_tokens'] = len_tokens
Analisis Sentimen dengan Python

Menangani tanda baca

  • Kita belum membahasnya, tetapi Anda dapat mengecualikannya
  • Fitur yang mengukur jumlah tanda baca
    • Ulasan dengan banyak tanda baca bisa menandakan opini yang sangat emosional
Analisis Sentimen dengan Python

Ulasan dengan fitur panjang

reviews.head()

5 baris teratas ulasan produk Amazon, termasuk kolom panjang ulasan yang ditambahkan

Analisis Sentimen dengan Python

Ayo berlatih!

Analisis Sentimen dengan Python

Preparing Video For Download...