Amélioration de gradient (GB)

Machine learning avec des modèles arborescents en Python

Elie Kawerk

Data Scientist

Arbres à gradient boosté

Correction séquentielle des erreurs commises par le prédécesseur.
Ne modifie pas les pondérations des instances d'entraînement.
Chaque prédicteur est entraîné en utilisant les erreurs résiduelles de son prédécesseur comme étiquettes.
Arbres à gradient boosté : un CART est utilisé comme apprentissage de base.

Arbres à gradient boosté pour la régression : Entraînement

GBT-train

Réduction

GBT-lr

Arbres à gradient boosté : Prédiction

Régression :
- $y_{pred} = y_1 + \eta r_1 + ... + \eta r_N$
- Dans sklearn : GradientBoostingRegressor.
Classification :
- Dans sklearn : GradientBoostingClassifier.

Gradient boosting dans sklearn (dataset auto)

# Import models and utility functions
from sklearn.ensemble import GradientBoostingRegressor
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error as MSE

# Set seed for reproducibility
SEED = 1

# Split dataset into 70% train and 30% test
X_train, X_test, y_train, y_test = train_test_split(X,y, 
                                                    test_size=0.3, 
                                                    random_state=SEED)

# Instantiate a GradientBoostingRegressor 'gbt'
gbt = GradientBoostingRegressor(n_estimators=300, max_depth=1, random_state=SEED)


# Fit 'gbt' to the training set
gbt.fit(X_train, y_train)

# Predict the test set labels
y_pred = gbt.predict(X_test)

# Evaluate the test set RMSE
rmse_test = MSE(y_test, y_pred)**(1/2)

# Print the test set RMSE
print('Test set RMSE: {:.2f}'.format(rmse_test))

Test set RMSE: 4.01

Passons à la pratique !

Machine learning avec des modèles arborescents en Python