Penyetelan hyperparameter

Memenangi Kompetisi Kaggle dengan Python

Yauhen Babakhin

Kaggle Grandmaster

Iterasi

Model	RMSE validasi	RMSE LB publik	Peringkat LB publik
Rata-rata sederhana	9,986	9,409	1449 / 1500
Rata-rata per grup	9,978	9,407	1411 / 1500
Gradient Boosting	5,996	4,595	1109 / 1500
Tambah fitur jam	5,553	4,352	1068 / 1500
Tambah fitur jarak	5,268	4,103	1006 / 1500
...	...	...	...

Iterasi

Model	RMSE validasi	RMSE LB publik	Peringkat LB publik
Rata-rata sederhana	9,986	9,409	1449 / 1500
Rata-rata per grup	9,978
Gradient Boosting	5,996	4,595	1109 / 1500
Tambah fitur jam	5,553
Tambah fitur jarak	5,268	4,103	1006 / 1500
...	...	...	...

Optimasi hyperparameter

Jenis kompetisi	Rekayasa fitur	Optimasi hyperparameter
Machine Learning klasik	+++	+
Deep Learning	-	+++

Regresi Ridge

Regresi linear kuadrat terkecil

$$Loss = \sum_{i=1}^{N}{(y_i - \hat{y}_i)^2} \to \min$$

Regresi Ridge

Regresi linear kuadrat terkecil

$$Loss = \sum_{i=1}^{N}{(y_i - \hat{y}_i)^2} \to \min$$

Regresi Ridge

$$Loss = \sum_{i=1}^{N}{(y_i - \hat{y}_i)^2 + \alpha\sum_{j=1}^{K}{{w_j}^2}} \to \min$$

Strategi optimasi hyperparameter

Grid search. Pilih kisi nilai hyperparameter yang telah ditentukan
Random search. Pilih ruang pencarian nilai hyperparameter
Optimasi Bayesian. Pilih ruang pencarian nilai hyperparameter

skema grid search

skema random search

Grid search

# Possible alpha values
alpha_grid = [0.01, 0.1, 1, 10]

from sklearn.linear_model import Ridge
results = {}
# For each value in the grid
for candidate_alpha in alpha_grid:

    # Create a model with a specific alpha value
    ridge_regression = Ridge(alpha=candidate_alpha)

    # Find the validation score for this model

    # Save the results for each alpha value
    results[candidate_alpha] = validation_score

Ayo berlatih!

Memenangi Kompetisi Kaggle dengan Python