Tinjauan dan perbandingan model

Memprediksi CTR dengan Machine Learning di Python

Kevin Huo

Instructor

Tinjauan model

from sklearn.linear_model import LogisticRegression
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.neural_network import MLPClassifier
  • Regresi logistik: klasifier linear yang menentukan batas keputusan
  • Pohon keputusan: kondisi dalam bentuk pohon
  • Random forest: ansambel pohon keputusan
  • Jaringan saraf (MLP): lapisan yang menggabungkan fitur secara linear dengan fungsi aktivasi nonlinier
Memprediksi CTR dengan Machine Learning di Python

Implementasi model

Kesamaan
  • Transformasi fitur dan regularisasi
  • Pelatihan dengan classifier.fit(X_train, y_train)
  • Prediksi dengan predict_proba() dan predict()
Perbedaan
  • Decision Tree: max_depth, min_samples_split
  • Random Forest: n_estimators, oob_score
  • Regresi Logistik: fit_intercept, class_weight
  • Jaringan Saraf: hidden_layer_sizes, max_iter
Memprediksi CTR dengan Machine Learning di Python

Evaluasi model

  • Metrik evaluasi utama:
    • Confusion matrix: confusion_matrix(y_test, y_pred)
    • Precision: precision_score(y_test, y_pred)
    • Recall: precision_score(y_test, y_pred)
    • Skor F-beta: fbeta_score(y_test, y_pred, beta = 0.5)
    • AUC kurva ROC: roc_auc_score(y_test, y_score[:, 1])
Memprediksi CTR dengan Machine Learning di Python

Kelebihan dan kekurangan utama jaringan saraf

Kelebihan

  • Skalabel terhadap data
  • Minim rekayasa fitur
  • Lebih mudah ditransfer lintas domain

Kekurangan

  • Kurang kuat pada dataset kecil
  • Sulit diinterpretasi
  • Lebih murah secara komputasi dan biaya
Memprediksi CTR dengan Machine Learning di Python

Ayo berlatih!

Memprediksi CTR dengan Machine Learning di Python

Preparing Video For Download...