Je definitieve model kiezen

Modelvalidatie in Python

Kasey Jones

Data Scientist

# Beste score
rs.best_score_
5.45
# Beste parameters
rs.best_params_
{'max_depth': 4, 'max_features': 8, 'min_samples_split': 4}
# Beste estimator
rs.best_estimator_
Modelvalidatie in Python

Andere attributen

rs.cv_results_

rs.cv_results_['mean_test_score']
array([5.45, 6.23, 5.87, 5,91, 5,67])
# Geselecteerde parameters:
rs.cv_results_['params']
[{'max_depth': 10, 'min_samples_split': 8, 'n_estimators': 25},
 {'max_depth': 4, 'min_samples_split': 8, 'n_estimators': 50},
 ...]
Modelvalidatie in Python

Gebruik van .cv_results_

Groepeer de max depths:

max_depth = [item['max_depth'] for item in rs.cv_results_['params']]
scores = list(rs.cv_results_['mean_test_score'])
d = pd.DataFrame([max_depth, scores]).T
d.columns = ['Max Depth', 'Score']
d.groupby(['Max Depth']).mean()
Max Depth  Score        
2.0        0.677928
4.0        0.753021
6.0        0.817219
8.0        0.879136
10.0       0.896821
Modelvalidatie in Python

Andere attributen (vervolg)

Toepassingen van de output:

  • Visualiseer het effect van elke parameter
  • Leid af welke parameters veel invloed hebben
Max Depth  Score        
2.0        0.677928
4.0        0.753021
6.0        0.817219
8.0        0.879136
10.0       0.896821
Modelvalidatie in Python

Het beste model kiezen

rs.best_estimator_ bevat de informatie van het beste model

rs.best_estimator_
RandomForestRegressor(bootstrap=True, criterion='mse', max_depth=8,
           max_features=8, max_leaf_nodes=None, min_impurity_decrease=0.0,
           min_impurity_split=None, min_samples_leaf=1,
           min_samples_split=12, min_weight_fraction_leaf=0.0,
           n_estimators=20, n_jobs=1, oob_score=False, random_state=1111,
           verbose=0, warm_start=False)
Modelvalidatie in Python

Modeltypen vergelijken

Random forest:

rfr.score(X_test, y_test)
6.39

Gradient Boosting:

gb.score(X_test, y_test)
6.23
Modelvalidatie in Python

Gebruik van .best_estimator_

Nieuwe data voorspellen:

rs.best_estimator_.predict(<new_data>)

Parameters bekijken:

random_search.best_estimator_.get_params()

Model opslaan voor later:

from sklearn.externals import joblib

joblib.dump(rfr, 'rfr_best_<date>.pkl')
Modelvalidatie in Python

Laten we oefenen!

Modelvalidatie in Python

Preparing Video For Download...