TfIdf: Lebih banyak cara mengubah teks

Analisis Sentimen dengan Python

Violeta Misheva

Data Scientist

Apa komponen TfIdf?

  • TF: term frequency: Seberapa sering suatu kata muncul dalam sebuah dokumen di korpus

  • Inverse document frequency: Rasio log antara jumlah total dokumen dan jumlah dokumen yang memuat kata tertentu

    • Dipakai untuk memberi bobot pada kata yang jarang muncul
Analisis Sentimen dengan Python

Skor TfIdf untuk sebuah kata

  • Skor TfIdf:
TfIdf = term frequency * inverse document frequency
  • BOW tidak mempertimbangkan panjang dokumen; TfIdf mempertimbangkannya.
  • TfIdf cenderung menangkap kata yang umum dalam satu dokumen tetapi tidak di banyak dokumen.
Analisis Sentimen dengan Python

Untuk apa TfIdf berguna?

Sentimen maskapai di Twitter
  • Skor TfIdf rendah: United, Virgin America
  • Skor TfIdf tinggi: check-in process (jika jarang di seluruh dokumen)
Tentang TfIdf
  • Karena mempenalti kata yang sering, kebutuhan menangani stop words berkurang.
  • Sangat berguna untuk kueri pencarian dan temu balik informasi guna memberi peringkat relevansi hasil.
Analisis Sentimen dengan Python

TfIdf di Python

# Import the TfidfVectorizer
from sklearn.feature_extraction.text import TfidfVectorizer
  • Argumen TfidfVectorizer: max_features, ngram_range, stop_words, token_pattern, max_df, min_df
vect = TfidfVectorizer(max_features=100).fit(tweets.text)
X = vect.transform(tweets.text)
Analisis Sentimen dengan Python

TfidfVectorizer

X
<14640x100 sparse matrix of type '<class 'numpy.float64'>'
    with 119182 stored elements in Compressed Sparse Row format>
X_df = pd.DataFrame(X_txt.toarray(), columns=vect.get_feature_names())
X_df.head()

5 baris teratas data yang dibuat dengan TfIdf

Analisis Sentimen dengan Python

Ayo berlatih!

Analisis Sentimen dengan Python

Preparing Video For Download...