Je definitieve model kiezen

Modelvalidatie in Python

Kasey Jones

Data Scientist

# Beste score
rs.best_score_

5.45

# Beste parameters
rs.best_params_

{'max_depth': 4, 'max_features': 8, 'min_samples_split': 4}

# Beste estimator
rs.best_estimator_

Andere attributen

rs.cv_results_

rs.cv_results_['mean_test_score']

array([5.45, 6.23, 5.87, 5,91, 5,67])

# Geselecteerde parameters:
rs.cv_results_['params']

[{'max_depth': 10, 'min_samples_split': 8, 'n_estimators': 25},
 {'max_depth': 4, 'min_samples_split': 8, 'n_estimators': 50},
 ...]

Gebruik van .cv_results_

Groepeer de max depths:

max_depth = [item['max_depth'] for item in rs.cv_results_['params']]
scores = list(rs.cv_results_['mean_test_score'])
d = pd.DataFrame([max_depth, scores]).T
d.columns = ['Max Depth', 'Score']
d.groupby(['Max Depth']).mean()

Max Depth  Score        
2.0        0.677928
4.0        0.753021
6.0        0.817219
8.0        0.879136
10.0       0.896821

Andere attributen (vervolg)

Toepassingen van de output:

Visualiseer het effect van elke parameter
Leid af welke parameters veel invloed hebben

Max Depth  Score        
2.0        0.677928
4.0        0.753021
6.0        0.817219
8.0        0.879136
10.0       0.896821

Het beste model kiezen

rs.best_estimator_ bevat de informatie van het beste model

rs.best_estimator_

RandomForestRegressor(bootstrap=True, criterion='mse', max_depth=8,
           max_features=8, max_leaf_nodes=None, min_impurity_decrease=0.0,
           min_impurity_split=None, min_samples_leaf=1,
           min_samples_split=12, min_weight_fraction_leaf=0.0,
           n_estimators=20, n_jobs=1, oob_score=False, random_state=1111,
           verbose=0, warm_start=False)

Modeltypen vergelijken

Random forest:

rfr.score(X_test, y_test)

6.39

Gradient Boosting:

gb.score(X_test, y_test)

6.23

Gebruik van .best_estimator_

Nieuwe data voorspellen:

rs.best_estimator_.predict(<new_data>)

Parameters bekijken:

random_search.best_estimator_.get_params()

Model opslaan voor later:

from sklearn.externals import joblib

joblib.dump(rfr, 'rfr_best_<date>.pkl')

Laten we oefenen!

Modelvalidatie in Python