Apakah kita benar-benar memprediksi sentimen dengan baik?

Analisis Sentimen dengan Python

Violeta Misheva

Data Scientist

Train/test split

jumlah total observasi dibagi menjadi training dan testing set, dengan training set sebagai blok yang lebih besar

  • Training set: untuk melatih model (70–80% dari seluruh data)
  • Testing set: untuk mengevaluasi kinerja model
Analisis Sentimen dengan Python

Train/test di Python

from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=123, stratify=y)
  • X : fitur
  • y : label
  • test_size: proporsi data untuk pengujian
  • random_state: seed untuk membuat pemisahan
  • stratify: proporsi kelas pada sampel sama dengan proporsi pada nilai parameter ini
Analisis Sentimen dengan Python

Regresi logistik dengan train/test split

log_reg = LogisticRegression().fit(X_train, y_train)
print('Accuracy on training data: ', log_reg.score(X_train, y_train))
0.76
print('Accuracy on testing data: ', log_reg.score(X_test, y_test))
0.73
Analisis Sentimen dengan Python

Akurasi dengan train/test split

from sklearn.metrics import accuracy_score
log_reg = LogisticRegression().fit(X_train, y_train)
y_predicted = log_reg.predict(X_test)
print('Accuracy score on test data: ', accuracy_score(y_test, y_predicted))
0.73
Analisis Sentimen dengan Python

Confusion matrix

contoh confusion matrix untuk masalah klasifikasi biner

Analisis Sentimen dengan Python

Confusion matrix di Python

from sklearn.metrics import confusion_matrix
log_reg = LogisticRegression().fit(X_train, y_train)
y_predicted = log_reg.predict(X_test)
print(confusion_matrix(y_test, y_predicted)/len(y_test))
[[0.3788 0.1224]
 [0.1352 0.3636]]
Analisis Sentimen dengan Python

Ayo berlatih!

Analisis Sentimen dengan Python

Preparing Video For Download...