Aprendizado de máquina com modelos baseados em árvores em Python
Elie Kawerk
Data Scientist
GB faz uma busca exaustiva.
Cada CART é treinada para achar os melhores pontos e variáveis de corte.
Pode gerar CARTs com os mesmos pontos e até as mesmas variáveis.
Cada árvore é treinada em uma amostra aleatória de linhas do treino.
As instâncias (40%–80% do treino) são amostradas sem reposição.
As variáveis são amostradas (sem reposição) ao escolher cortes.
Resultado: mais diversidade no ensemble.
Efeito: mais variância no conjunto de árvores.

# Import models and utility functions
from sklearn.ensemble import GradientBoostingRegressor
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error as MSE
# Set seed for reproducibility
SEED = 1
# Split dataset into 70% train and 30% test
X_train, X_test, y_train, y_test = train_test_split(X,y,
test_size=0.3,
random_state=SEED)
# Instantiate a stochastic GradientBoostingRegressor 'sgbt' sgbt = GradientBoostingRegressor(max_depth=1, subsample=0.8, max_features=0.2, n_estimators=300, random_state=SEED)# Fit 'sgbt' to the training set sgbt.fit(X_train, y_train) # Predict the test set labels y_pred = sgbt.predict(X_test)
# Evaluate test set RMSE 'rmse_test'
rmse_test = MSE(y_test, y_pred)**(1/2)
# Print 'rmse_test'
print('Test set RMSE: {:.2f}'.format(rmse_test))
Test set RMSE: 3.95
Aprendizado de máquina com modelos baseados em árvores em Python