Tinjauan dan perbandingan model

Memprediksi CTR dengan Machine Learning di Python

Kevin Huo

Instructor

Tinjauan model

from sklearn.linear_model import LogisticRegression
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.neural_network import MLPClassifier
  • Regresi logistik: pengklasifikasi linear yang menentukan batas keputusan
  • Pohon keputusan: rangkaian kondisi berbentuk pohon
  • Random Forest: ansambel Pohon Keputusan
  • Jaringan saraf (MLP): lapisan yang memakai kombinasi linear fitur dengan fungsi aktivasi nonlinier
Memprediksi CTR dengan Machine Learning di Python

Implementasi model

Kesamaan
  • Transformasi fitur dan regularisasi
  • Pelatihan via classifier.fit(X_train, y_train)
  • Prediksi via predict_proba() dan predict()
Perbedaan
  • Pohon Keputusan: max_depth, min_samples_split
  • Random Forest: n_estimators, oob_score
  • Regresi Logistik: fit_intercept, class_weight
  • Jaringan Saraf: hidden_layer_sizes, max_iter
Memprediksi CTR dengan Machine Learning di Python

Evaluasi model

  • Metrik evaluasi utama:
    • Confusion matrix: confusion_matrix(y_test, y_pred)
    • Precision: precision_score(y_test, y_pred)
    • Recall: recall_score(y_test, y_pred)
    • Skor F-beta: fbeta_score(y_test, y_pred, beta = 0.5)
    • AUC kurva ROC: roc_auc_score(y_test, y_score[:, 1])
Memprediksi CTR dengan Machine Learning di Python

Kelebihan dan kekurangan utama jaringan saraf

Kelebihan

  • Skalabilitas dengan data
  • Lebih sedikit kebutuhan rekayasa fitur
  • Lebih mudah ditransfer antar domain

Kekurangan

  • Kurang kuat pada dataset kecil
  • Sulit diinterpretasikan
  • Lebih murah secara komputasional dan finansial
Memprediksi CTR dengan Machine Learning di Python

Ayo berlatih!

Memprediksi CTR dengan Machine Learning di Python

Preparing Video For Download...