Bir RF'nin Hiperparametrelerini Ayarlama

Python ile Ağaç Tabanlı Modellerle Machine Learning

Elie Kawerk

Data Scientist

Random Forest Hiperparametreleri

  • CART hiperparametreleri

  • tahminci sayısı

  • bootstrap

  • ....

Python ile Ağaç Tabanlı Modellerle Machine Learning

Ayarlama pahalıdır

Hiperparametre ayarı:

  • hesaplama açısından maliyetli,

  • bazen çok az iyileşme sağlar,

Ayarlamanın tüm proje üzerindeki etkisini tartın.

Python ile Ağaç Tabanlı Modellerle Machine Learning

sklearn'de RF Hiperparametrelerini İnceleme

# RandomForestRegressor'ı içe aktarın 
from sklearn.ensemble import RandomForestRegressor

# Tekrarlanabilirlik için tohum ayarlayın
SEED = 1

# 'rf' adlı bir rastgele orman regresörü oluşturun 
rf = RandomForestRegressor(random_state= SEED)

Python ile Ağaç Tabanlı Modellerle Machine Learning
# rf'nin hiperparametrelerini inceleyin
rf.get_params()
{'bootstrap': True,
 'criterion': 'mse',
 'max_depth': None,
 'max_features': 'auto',
 'max_leaf_nodes': None,
 'min_impurity_decrease': 0.0,
 'min_impurity_split': None,
 'min_samples_leaf': 1,
 'min_samples_split': 2,
 'min_weight_fraction_leaf': 0.0,
 'n_estimators': 10,
 'n_jobs': -1,
 'oob_score': False,
 'random_state': 1,
 'verbose': 0,
 'warm_start': False}
Python ile Ağaç Tabanlı Modellerle Machine Learning
# Basic imports
from sklearn.metrics import mean_squared_error as MSE
from sklearn.model_selection import GridSearchCV

# 'params_rf' hiperparametre ızgarasını tanımlayın params_rf = { 'n_estimators': [300, 400, 500], 'max_depth': [4, 6, 8], 'min_samples_leaf': [0.1, 0.2], 'max_features': ['log2', 'sqrt'] }
# 'grid_rf' örneğini oluşturun grid_rf = GridSearchCV(estimator=rf, param_grid=params_rf, cv=3, scoring='neg_mean_squared_error', verbose=1, n_jobs=-1)
Python ile Ağaç Tabanlı Modellerle Machine Learning

En iyi hiperparametreleri arama

# 'grid_rf'i eğitim setine uydurun
grid_rf.fit(X_train, y_train)
3 kat ve 36 aday için uyarlanıyor, toplam 108 uyum
[Parallel(n_jobs=-1)]: Done  42 tasks      | elapsed:   10.0s
[Parallel(n_jobs=-1)]: Done 108 out of 108 | elapsed:   24.3s finished
RandomForestRegressor(bootstrap=True, criterion='mse', max_depth=4,
           max_features='log2', max_leaf_nodes=None,
           min_impurity_decrease=0.0, min_impurity_split=None,
           min_samples_leaf=0.1, min_samples_split=2,
           min_weight_fraction_leaf=0.0, n_estimators=400, n_jobs=1,
           oob_score=False, random_state=1, verbose=0, warm_start=False)
Python ile Ağaç Tabanlı Modellerle Machine Learning

En iyi hiperparametreleri çıkarma

# 'grid_rf'ten en iyi hiperparametreleri çıkarın
best_hyperparams = grid_rf.best_params_

print('En iyi hiperparametreler:\n', best_hyperparams)
En iyi hiperparametreler:
        {'max_depth': 4,
         'max_features': 'log2', 
         'min_samples_leaf': 0.1,
         'n_estimators': 400}
Python ile Ağaç Tabanlı Modellerle Machine Learning

En iyi modelin performansını değerlendirme

# 'grid_rf'ten en iyi modeli çıkarın
best_model = grid_rf.best_estimator_
# Test etiketlerini tahmin edin
y_pred = best_model.predict(X_test)
# Test RMSE değerini hesaplayın
rmse_test = MSE(y_test, y_pred)**(1/2)
# Test RMSE'yi yazdırın
print('rf'in test RMSE'si: {:.2f}'.format(rmse_test))
rf'in test RMSE'si: 3.89
Python ile Ağaç Tabanlı Modellerle Machine Learning

Ayo berlatih!

Python ile Ağaç Tabanlı Modellerle Machine Learning

Preparing Video For Download...