Random Search in Scikit-learn

Hyperparameter Tuning in Python

Alex Scriven

Data Scientist

Vergelijken met GridSearchCV

 

We hoeven het wiel niet opnieuw uit te vinden. Herhaal de stappen voor Grid Search:

  1. Kies een algoritme/estimator
  2. Bepaal welke hyperparameters je afstemt
  3. Bepaal een waardebereik per hyperparameter
  4. Stel een cross-validatieschema in; en
  5. Kies een scorefunctie
  6. Voeg extra nuttige info of functies toe
Hyperparameter Tuning in Python

Vergelijken met Grid Search

   

Er is maar één verschil:

  • Stap 7 = Bepaal hoeveel samples je neemt (en sample)

 

Dat is alles! (meestal)

Hyperparameter Tuning in Python

Scikit-learn-modules vergelijken

De modules lijken ook op elkaar:

GridSearchCV:

sklearn.model_selection.GridSearchCV(estimator, param_grid, 
        scoring=None, fit_params=None, 
        n_jobs=None,
        refit=True, cv='warn', verbose=0, 
        pre_dispatch='2*n_jobs', 
        error_score='raise-deprecating',
        return_train_score='warn')

 

RandomizedSearchCV:

sklearn.model_selection.RandomizedSearchCV(estimator, 
        param_distributions, n_iter=10, 
        scoring=None, fit_params=None, 
        n_jobs=None, refit=True, 
        cv='warn', verbose=0, 
        pre_dispatch='2*n_jobs',
        random_state=None, 
        error_score='raise-deprecating', 
        return_train_score='warn')
Hyperparameter Tuning in Python

Belangrijkste verschillen

 

Twee belangrijke verschillen:

  • n_iter is het aantal samples dat de random search uit je grid neemt. In het vorige voorbeeld deed je er 300.

  • param_distributions verschilt licht van param_grid en laat optioneel een verdeling voor sampling toe.

    • Standaard heeft elke combinatie evenveel kans om gekozen te worden.
Hyperparameter Tuning in Python

Bouw een RandomizedSearchCV-object

Nu kunnen we een random search-object bouwen zoals bij grid search, maar met onze kleine aanpassing:

# Set up the sample space
learn_rate_list = np.linspace(0.001,2,150)
min_samples_leaf_list = list(range(1,51))

# Create the grid
parameter_grid = {
    'learning_rate' : learn_rate_list,
    'min_samples_leaf' : min_samples_leaf_list}

# Define how many samples number_models = 10
Hyperparameter Tuning in Python

Bouw een RandomizedSearchCV-object

Nu kunnen we het object bouwen

# Create a random search object
random_GBM_class = RandomizedSearchCV(
    estimator = GradientBoostingClassifier(),
    param_distributions = parameter_grid,
    n_iter = number_models,
    scoring='accuracy',
    n_jobs=4, 
    cv = 10,
    refit=True, 
    return_train_score = True)
# Fit the object to our data
random_GBM_class.fit(X_train, y_train)
Hyperparameter Tuning in Python

Analyseer de output

De output is precies hetzelfde!

Hoe zie je welke hyperparameters zijn gekozen?

De cv_results_-dictionary (in de relevante param_-kolommen)!

Haal de lijsten op:

rand_x = list(random_GBM_class.cv_results_['param_learning_rate'])
rand_y = list(random_GBM_class.cv_results_['param_min_samples_leaf'])
Hyperparameter Tuning in Python

Analyseer de output

Bouw onze visualisatie:

# Make sure we set the limits of Y and X appriately
x_lims = [np.min(learn_rate_list), np.max(learn_rate_list)]
y_lims = [np.min(min_samples_leaf_list), np.max(min_samples_leaf_list)]

# Plot grid results plt.scatter(rand_y, rand_x, c=['blue']*10) plt.gca().set(xlabel='learn_rate', ylabel='min_samples_leaf', title='Random Search Hyperparameters') plt.show()
Hyperparameter Tuning in Python

Analyseer de output

Een vergelijkbare grafiek als eerder:

random grafiekdekking

Hyperparameter Tuning in Python

Laten we oefenen!

Hyperparameter Tuning in Python

Preparing Video For Download...