AdaBoost

Aprendizado de máquina com modelos baseados em árvores em Python

Elie Kawerk

Data Scientist

Boosting

  • Boosting: Método de ensemble que combina vários fracos para formar um forte.

  • Aprendiz fraco: Modelo um pouco melhor que o chute aleatório.

  • Exemplo de fraco: toco de decisão (CART com profundidade máxima 1).

Aprendizado de máquina com modelos baseados em árvores em Python

Boosting

  • Treine um ensemble de preditores em sequência.

  • Cada preditor corrige o anterior.

  • Boostings mais populares:

    • AdaBoost,

    • Gradient Boosting.

Aprendizado de máquina com modelos baseados em árvores em Python

Adaboost

  • Significa Adaptive Boosting.

  • Cada preditor foca mais nos casos que o anterior errou.

  • Feito ajustando os pesos das instâncias de treino.

  • Cada preditor recebe um coeficiente $\alpha$.

  • $\alpha$ depende do erro de treino do preditor.

Aprendizado de máquina com modelos baseados em árvores em Python

AdaBoost: Treino

ada-train

Aprendizado de máquina com modelos baseados em árvores em Python

Learning Rate

Taxa de aprendizado: $0 < \eta \leq 1$ ada-lr

Aprendizado de máquina com modelos baseados em árvores em Python

AdaBoost: Predição

  • Classificação:

    • Votação majoritária ponderada.
    • No sklearn: AdaBoostClassifier.
  • Regressão:

    • Média ponderada.
    • No sklearn: AdaBoostRegressor.
Aprendizado de máquina com modelos baseados em árvores em Python

Classificação com AdaBoost no sklearn (Breast Cancer)

# Import models and utility functions
from sklearn.ensemble import AdaBoostClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import roc_auc_score
from sklearn.model_selection import train_test_split

# Set seed for reproducibility
SEED = 1

# Split data into 70% train and 30% test
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3,
                                                    stratify=y,
                                                    random_state=SEED)
Aprendizado de máquina com modelos baseados em árvores em Python
# Instantiate a classification-tree 'dt'
dt = DecisionTreeClassifier(max_depth=1, random_state=SEED)

# Instantiate an AdaBoost classifier 'adab_clf' adb_clf = AdaBoostClassifier(base_estimator=dt, n_estimators=100)
# Fit 'adb_clf' to the training set adb_clf.fit(X_train, y_train) # Predict the test set probabilities of positive class y_pred_proba = adb_clf.predict_proba(X_test)[:,1]
# Evaluate test-set roc_auc_score adb_clf_roc_auc_score = roc_auc_score(y_test, y_pred_proba)
Aprendizado de máquina com modelos baseados em árvores em Python

Classificação com AdaBoost no sklearn (Breast Cancer)

# Print adb_clf_roc_auc_score
print('ROC AUC score: {:.2f}'.format(adb_clf_roc_auc_score)) 
ROC AUC score: 0.99
Aprendizado de máquina com modelos baseados em árvores em Python

Vamos praticar!

Aprendizado de máquina com modelos baseados em árvores em Python

Preparing Video For Download...