Machine learning con modelos basados en árboles en Python
Elie Kawerk
Data Scientist
Hiperparámetros de CART
número de estimadores
bootstrap
...
Ajuste de hiperparámetros:
costoso computacionalmente,
a veces mejora muy poco,
Valora su impacto en todo el proyecto.
# Importa RandomForestRegressor
from sklearn.ensemble import RandomForestRegressor
# Fija la semilla para reproducibilidad
SEED = 1
# Instancia un RandomForestRegressor 'rf'
rf = RandomForestRegressor(random_state= SEED)
# Inspecciona los hiperparámetros de rf
rf.get_params()
{'bootstrap': True,
'criterion': 'mse',
'max_depth': None,
'max_features': 'auto',
'max_leaf_nodes': None,
'min_impurity_decrease': 0.0,
'min_impurity_split': None,
'min_samples_leaf': 1,
'min_samples_split': 2,
'min_weight_fraction_leaf': 0.0,
'n_estimators': 10,
'n_jobs': -1,
'oob_score': False,
'random_state': 1,
'verbose': 0,
'warm_start': False}
# Importaciones básicas from sklearn.metrics import mean_squared_error as MSE from sklearn.model_selection import GridSearchCV# Define una cuadrícula de hiperparámetros 'params_rf' params_rf = { 'n_estimators': [300, 400, 500], 'max_depth': [4, 6, 8], 'min_samples_leaf': [0.1, 0.2], 'max_features': ['log2', 'sqrt'] }# Instancia 'grid_rf' grid_rf = GridSearchCV(estimator=rf, param_grid=params_rf, cv=3, scoring='neg_mean_squared_error', verbose=1, n_jobs=-1)
# Ajusta 'grid_rf' al conjunto de entrenamiento
grid_rf.fit(X_train, y_train)
Ajustando 3 folds para cada uno de 36 candidatos, total 108 ajustes
[Parallel(n_jobs=-1)]: Done 42 tasks | elapsed: 10.0s
[Parallel(n_jobs=-1)]: Done 108 out of 108 | elapsed: 24.3s finished
RandomForestRegressor(bootstrap=True, criterion='mse', max_depth=4,
max_features='log2', max_leaf_nodes=None,
min_impurity_decrease=0.0, min_impurity_split=None,
min_samples_leaf=0.1, min_samples_split=2,
min_weight_fraction_leaf=0.0, n_estimators=400, n_jobs=1,
oob_score=False, random_state=1, verbose=0, warm_start=False)
# Extrae los mejores hiperparámetros de 'grid_rf'
best_hyperparams = grid_rf.best_params_
print('Mejores hiperparámetros:\n', best_hyperparams)
Mejores hiperparámetros:
{'max_depth': 4,
'max_features': 'log2',
'min_samples_leaf': 0.1,
'n_estimators': 400}
# Extrae el mejor modelo de 'grid_rf'
best_model = grid_rf.best_estimator_
# Predice las etiquetas del test
y_pred = best_model.predict(X_test)
# Evalúa el RMSE en test
rmse_test = MSE(y_test, y_pred)**(1/2)
# Imprime el RMSE en test
print('RMSE en test de rf: {:.2f}'.format(rmse_test))
RMSE en test de rf: 3.89
Machine learning con modelos basados en árboles en Python