Pencarian Acak di Scikit Learn

Penyetelan Hyperparameter di Python

Alex Scriven

Data Scientist

Membandingkan dengan GridSearchCV

 

Kita tidak perlu menciptakan ulang roda. Ingat langkah Grid Search:

  1. Pilih algoritme/estimator
  2. Tentukan hyperparameter yang akan dituning
  3. Tentukan rentang nilai untuk tiap hyperparameter
  4. Tetapkan skema cross-validation; dan
  5. Tentukan fungsi skor
  6. Tambahkan info atau fungsi ekstra yang berguna
Penyetelan Hyperparameter di Python

Membandingkan dengan Grid Search

   

Hanya ada satu perbedaan:

  • Langkah 7 = Tentukan berapa banyak sampel yang diambil (lalu lakukan sampling)

 

Itu saja! (sebagian besar)

Penyetelan Hyperparameter di Python

Membandingkan Modul Scikit Learn

Modulnya juga mirip:

GridSearchCV:

sklearn.model_selection.GridSearchCV(estimator, param_grid, 
        scoring=None, fit_params=None, 
        n_jobs=None,
        refit=True, cv='warn', verbose=0, 
        pre_dispatch='2*n_jobs', 
        error_score='raise-deprecating',
        return_train_score='warn')

 

RandomizedSearchCV:

sklearn.model_selection.RandomizedSearchCV(estimator, 
        param_distributions, n_iter=10, 
        scoring=None, fit_params=None, 
        n_jobs=None, refit=True, 
        cv='warn', verbose=0, 
        pre_dispatch='2*n_jobs',
        random_state=None, 
        error_score='raise-deprecating', 
        return_train_score='warn')
Penyetelan Hyperparameter di Python

Perbedaan utama

 

Dua perbedaan utama:

  • n_iter adalah jumlah sampel yang diambil random search dari grid Anda. Pada contoh sebelumnya Anda mengambil 300.

  • param_distributions sedikit berbeda dari param_grid, memungkinkan opsi menetapkan distribusi untuk sampling.

    • Default: semua kombinasi punya peluang sama untuk dipilih.
Penyetelan Hyperparameter di Python

Bangun Objek RandomizedSearchCV

Sekarang kita dapat membangun objek pencarian acak seperti grid search, dengan perubahan kecil kita:

# Set up the sample space
learn_rate_list = np.linspace(0.001,2,150)
min_samples_leaf_list = list(range(1,51))

# Create the grid
parameter_grid = {
    'learning_rate' : learn_rate_list,
    'min_samples_leaf' : min_samples_leaf_list}

# Define how many samples number_models = 10
Penyetelan Hyperparameter di Python

Bangun Objek RandomizedSearchCV

Sekarang kita bisa membangun objeknya

# Create a random search object
random_GBM_class = RandomizedSearchCV(
    estimator = GradientBoostingClassifier(),
    param_distributions = parameter_grid,
    n_iter = number_models,
    scoring='accuracy',
    n_jobs=4, 
    cv = 10,
    refit=True, 
    return_train_score = True)
# Fit the object to our data
random_GBM_class.fit(X_train, y_train)
Penyetelan Hyperparameter di Python

Analisis keluaran

Keluaran sama persis!

Bagaimana melihat nilai hyperparameter yang dipilih?

Dictionary cv_results_ (di kolom param_ terkait)!

Ekstrak daftarnya:

rand_x = list(random_GBM_class.cv_results_['param_learning_rate'])
rand_y = list(random_GBM_class.cv_results_['param_min_samples_leaf'])
Penyetelan Hyperparameter di Python

Analisis keluaran

Bangun visualisasinya:

# Make sure we set the limits of Y and X appriately
x_lims = [np.min(learn_rate_list), np.max(learn_rate_list)]
y_lims = [np.min(min_samples_leaf_list), np.max(min_samples_leaf_list)]

# Plot grid results plt.scatter(rand_y, rand_x, c=['blue']*10) plt.gca().set(xlabel='learn_rate', ylabel='min_samples_leaf', title='Random Search Hyperparameters') plt.show()
Penyetelan Hyperparameter di Python

Analisis keluaran

Grafik mirip seperti sebelumnya:

cakupan grafik acak

Penyetelan Hyperparameter di Python

Ayo berlatih!

Penyetelan Hyperparameter di Python

Preparing Video For Download...