Hyperparameter Tuning in Python
Alex Scriven
Data Scientist
Introductie van een GridSearchCV-object:
sklearn.model_selection.GridSearchCV(
estimator,
param_grid, scoring=None, fit_params=None,
n_jobs=None, refit=True, cv='warn',
verbose=0, pre_dispatch='2*n_jobs',
error_score='raise-deprecating',
return_train_score='warn')
Stappen van een grid search:
Belangrijke inputs:
estimatorparam_gridcvscoringrefitn_jobsreturn_train_score
De input estimator:
Onthoud:
De input param_grid:
In plaats van lijsten:
max_depth_list = [2, 4, 6, 8]
min_samples_leaf_list = [1, 2, 4, 6]
Dit wordt:
param_grid = {'max_depth': [2, 4, 6, 8],
'min_samples_leaf': [1, 2, 4, 6]}
De input param_grid:
Onthoud: de keys in je param_grid-dictionary moeten geldige hyperparameters zijn.
Bijv. voor een Logistic Regression-estimator:
# Incorrect
param_grid = {'C': [0.1,0.2,0.5],
'best_choice': [10,20,50]}
ValueError: Invalid parameter best_choice for estimator LogisticRegression
De input cv:

De input scoring:
metrics-moduleAlle ingebouwde scoringfuncties bekijken:
from sklearn import metrics
sorted(metrics.SCORERS.keys())
De input refit:
GridSearchCV-object bruikbaar als estimator (voor predictie)De input n_jobs:
Handige code:
import os
print(os.cpu_count())
Let op met al je cores gebruiken als je ook ander werk wilt doen!
De input return_train_score:
Een eigen GridSearchCV-object bouwen:
# Create the grid param_grid = {'max_depth': [2, 4, 6, 8], 'min_samples_leaf': [1, 2, 4, 6]}#Get a base classifier with some set parameters. rf_class = RandomForestClassifier(criterion='entropy', max_features='auto')
Alles samenvoegen:
grid_rf_class = GridSearchCV(
estimator = rf_class,
param_grid = parameter_grid,
scoring='accuracy',
n_jobs=4,
cv = 10,
refit=True,
return_train_score=True)
Omdat we refit op True zetten, kunnen we het object direct gebruiken:
#Fit the object to our data
grid_rf_class.fit(X_train, y_train)
# Make predictions
grid_rf_class.predict(X_test)
Hyperparameter Tuning in Python