Machine Learning dengan Model Berbasis Pohon di Python
Elie Kawerk
Data Scientist
Boosting: Metode ensemble yang menggabungkan beberapa weak learner menjadi strong learner.
Weak learner: Model yang sedikit lebih baik dari tebak acak.
Contoh weak learner: Decision stump (CART dengan kedalaman maks 1).
Latih sekumpulan prediktor secara berurutan.
Tiap prediktor mengoreksi pendahulunya.
Metode boosting paling populer:
AdaBoost,
Gradient Boosting.
Singkatan dari Adaptive Boosting.
Tiap prediktor lebih menekankan pada instance yang salah diprediksi oleh pendahulunya.
Dilakukan dengan mengubah bobot instance pelatihan.
Tiap prediktor diberi koefisien $\alpha$.
$\alpha$ bergantung pada error pelatihan prediktor.

Learning rate: $0 < \eta \leq 1$

Klasifikasi:
AdaBoostClassifier.Regresi:
AdaBoostRegressor.# Import models and utility functions
from sklearn.ensemble import AdaBoostClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import roc_auc_score
from sklearn.model_selection import train_test_split
# Set seed for reproducibility
SEED = 1
# Split data into 70% train and 30% test
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3,
stratify=y,
random_state=SEED)
# Instantiate a classification-tree 'dt' dt = DecisionTreeClassifier(max_depth=1, random_state=SEED)# Instantiate an AdaBoost classifier 'adab_clf' adb_clf = AdaBoostClassifier(base_estimator=dt, n_estimators=100)# Fit 'adb_clf' to the training set adb_clf.fit(X_train, y_train) # Predict the test set probabilities of positive class y_pred_proba = adb_clf.predict_proba(X_test)[:,1]# Evaluate test-set roc_auc_score adb_clf_roc_auc_score = roc_auc_score(y_test, y_pred_proba)
# Print adb_clf_roc_auc_score
print('ROC AUC score: {:.2f}'.format(adb_clf_roc_auc_score))
ROC AUC score: 0.99
Machine Learning dengan Model Berbasis Pohon di Python