Penyetelan Hyperparameter di Python
Alex Scriven
Data Scientist
Kita tidak perlu menciptakan ulang roda. Ingat langkah Grid Search:
Hanya ada satu perbedaan:
Itu saja! (sebagian besar)
Modulnya juga mirip:
GridSearchCV:
sklearn.model_selection.GridSearchCV(estimator, param_grid,
scoring=None, fit_params=None,
n_jobs=None,
refit=True, cv='warn', verbose=0,
pre_dispatch='2*n_jobs',
error_score='raise-deprecating',
return_train_score='warn')
RandomizedSearchCV:
sklearn.model_selection.RandomizedSearchCV(estimator,
param_distributions, n_iter=10,
scoring=None, fit_params=None,
n_jobs=None, refit=True,
cv='warn', verbose=0,
pre_dispatch='2*n_jobs',
random_state=None,
error_score='raise-deprecating',
return_train_score='warn')
Dua perbedaan utama:
n_iter adalah jumlah sampel yang diambil random search dari grid Anda. Pada contoh sebelumnya Anda mengambil 300.
param_distributions sedikit berbeda dari param_grid, memungkinkan opsi menetapkan distribusi untuk sampling.
Sekarang kita dapat membangun objek pencarian acak seperti grid search, dengan perubahan kecil kita:
# Set up the sample space learn_rate_list = np.linspace(0.001,2,150) min_samples_leaf_list = list(range(1,51)) # Create the grid parameter_grid = { 'learning_rate' : learn_rate_list, 'min_samples_leaf' : min_samples_leaf_list}# Define how many samples number_models = 10
Sekarang kita bisa membangun objeknya
# Create a random search object
random_GBM_class = RandomizedSearchCV(
estimator = GradientBoostingClassifier(),
param_distributions = parameter_grid,
n_iter = number_models,
scoring='accuracy',
n_jobs=4,
cv = 10,
refit=True,
return_train_score = True)
# Fit the object to our data
random_GBM_class.fit(X_train, y_train)
Keluaran sama persis!
Bagaimana melihat nilai hyperparameter yang dipilih?
Dictionary cv_results_ (di kolom param_ terkait)!
Ekstrak daftarnya:
rand_x = list(random_GBM_class.cv_results_['param_learning_rate'])
rand_y = list(random_GBM_class.cv_results_['param_min_samples_leaf'])
Bangun visualisasinya:
# Make sure we set the limits of Y and X appriately x_lims = [np.min(learn_rate_list), np.max(learn_rate_list)] y_lims = [np.min(min_samples_leaf_list), np.max(min_samples_leaf_list)]# Plot grid results plt.scatter(rand_y, rand_x, c=['blue']*10) plt.gca().set(xlabel='learn_rate', ylabel='min_samples_leaf', title='Random Search Hyperparameters') plt.show()
Grafik mirip seperti sebelumnya:

Penyetelan Hyperparameter di Python