Regresi logistik: tinjauan ulang

Analisis Sentimen dengan Python

Violeta Misheva

Data Scientist

Model kompleks dan regularisasi

Model kompleks:

  • Model terlalu menyesuaikan noise pada data (overfitting)
  • Banyak fitur atau parameter

Regularisasi:

  • Cara menyederhanakan agar model kurang kompleks
Analisis Sentimen dengan Python

Regularisasi pada regresi logistik

from sklearn.linear_model import LogisticRegression
# Argumen regularisasi
LogisticRegression(penalty='l2', C=1.0)
  • L2: mengecilkan semua koefisien menuju nol
  • Nilai C tinggi: penalti rendah, model pas dengan data latih.
  • Nilai C rendah: penalti tinggi, model kurang fleksibel.
Analisis Sentimen dengan Python

Memprediksi probabilitas vs. kelas

log_reg = LogisticRegression().fit(X_train, y_train)
# Prediksi label
y_predicted = log_reg.predict(X_test)
# Prediksi probabilitas
y_probab = log_reg.predict_proba(X_test)
Analisis Sentimen dengan Python

Memprediksi probabilitas vs. kelas

y_probab
array([[0.5002245, 0.4997755],
       [0.4900345, 0.5099655],
        ...,
       [0.7040499, 0.2959501]])
# Ambil probabilitas untuk kelas 1
y_probab = log_reg.predict_proba(X_test)[:, 1]
array([0.4997755, 0.5099655 ..., 0.2959501]])
Analisis Sentimen dengan Python

Metrik model dengan probabilitas terprediksi

  • Muncul ValueError saat dipakai dengan probabilitas.
  • Akurasi dan confusion matrix bekerja dengan kelas.
# Pengubahan probabilitas default:
# Jika probabilitas >= 0.5, maka kelas 1; jika tidak kelas 0
Analisis Sentimen dengan Python

Ayo berlatih!

Analisis Sentimen dengan Python

Preparing Video For Download...