Regresi teratur

Supervised Learning dengan scikit-learn

George Boorman

Core Curriculum Manager, DataCamp

Mengapa melakukan regularisasi?

Ingat: Regresi linear meminimalkan fungsi loss
Memilih koefisien, $a$, untuk tiap fitur, plus $b$
Koefisien besar dapat menyebabkan overfitting
Regularisasi: Memberi penalti pada koefisien besar

Regresi ridge

Fungsi loss = OLS + $$ \alpha * \sum_{i=1}^{n} {a_i}^2$$
Ridge memberi penalti pada koefisien besar, positif atau negatif
$\alpha$: parameter yang harus dipilih
Memilih $\alpha$ mirip memilih k pada KNN
Hyperparameter: variabel untuk mengoptimalkan parameter model
$\alpha$ mengontrol kompleksitas model
- $\alpha$ = 0 = OLS (dapat menyebabkan overfitting)
- $\alpha$ sangat tinggi: dapat menyebabkan underfitting

Regresi ridge di scikit-learn

from sklearn.linear_model import Ridge

scores = []
for alpha in [0.1, 1.0, 10.0, 100.0, 1000.0]:

    ridge = Ridge(alpha=alpha)

    ridge.fit(X_train, y_train)
    y_pred = ridge.predict(X_test)

    scores.append(ridge.score(X_test, y_test))

print(scores)

[0.2828466623222221, 0.28320633574804777, 0.2853000732200006, 
 0.26423984812668133, 0.19292424694100963]

Regresi lasso

Fungsi loss = OLS + $$ \alpha * \sum_{i=1}^{n} |a_i|$$

Regresi lasso di scikit-learn

from sklearn.linear_model import Lasso

scores = []
for alpha in [0.01, 1.0, 10.0, 20.0, 50.0]:
  lasso = Lasso(alpha=alpha)
  lasso.fit(X_train, y_train)
  lasso_pred = lasso.predict(X_test)
  scores.append(lasso.score(X_test, y_test))
print(scores)

[0.99991649071123, 0.99961700284223, 0.93882227671069, 0.74855318676232, -0.05741034640016]

Regresi lasso untuk seleksi fitur

Lasso dapat memilih fitur penting dalam dataset
Mengecilkan koefisien fitur kurang penting hingga nol
Fitur yang tidak menjadi nol dipilih oleh lasso

Lasso untuk seleksi fitur di scikit-learn

from sklearn.linear_model import Lasso

X = diabetes_df.drop("glucose", axis=1).values
y = diabetes_df["glucose"].values
names = diabetes_df.drop("glucose", axis=1).columns

lasso = Lasso(alpha=0.1)

lasso_coef = lasso.fit(X, y).coef_

plt.bar(names, lasso_coef)
plt.xticks(rotation=45)
plt.show()

Lasso untuk seleksi fitur di scikit-learn

diagram batang koefisien per fitur, hampir semua di sekitar nol kecuali diabetes bernilai 25

Ayo berlatih!

Supervised Learning dengan scikit-learn