Geregulariseerde regressie

Supervised Learning met scikit-learn

George Boorman

Core Curriculum Manager, DataCamp

Waarom regulariseren?

Herhaling: lineaire regressie minimaliseert een verliesfunctie
Het kiest een coëfficiënt, a, voor elke featurevariabele, plus b
Grote coëfficiënten kunnen overfitting geven
Regularisatie: penaliseer grote coëfficiënten

Ridge-regressie

Verliesfunctie = OLS-verlies + $$ \alpha * \sum_{i=1}^{n} {a_i}^2$$
Ridge straft grote positieve of negatieve coëfficiënten
$\alpha$: parameter die we moeten kiezen
$\alpha$ kiezen lijkt op k kiezen in KNN
Hyperparameter: variabele om modelparameters te optimaliseren
$\alpha$ bepaalt modelcomplexiteit
- $\alpha$ = 0 = OLS (kan tot overfitting leiden)
- Zeer hoge $\alpha$: kan tot underfitting leiden

Ridge-regressie in scikit-learn

from sklearn.linear_model import Ridge

scores = []
for alpha in [0.1, 1.0, 10.0, 100.0, 1000.0]:

    ridge = Ridge(alpha=alpha)

    ridge.fit(X_train, y_train)
    y_pred = ridge.predict(X_test)

    scores.append(ridge.score(X_test, y_test))

print(scores)

[0.2828466623222221, 0.28320633574804777, 0.2853000732200006, 
 0.26423984812668133, 0.19292424694100963]

Lasso-regressie

Verliesfunctie = OLS-verlies + $$ \alpha * \sum_{i=1}^{n} |a_i|$$

Lasso-regressie in scikit-learn

from sklearn.linear_model import Lasso

scores = []
for alpha in [0.01, 1.0, 10.0, 20.0, 50.0]:
  lasso = Lasso(alpha=alpha)
  lasso.fit(X_train, y_train)
  lasso_pred = lasso.predict(X_test)
  scores.append(lasso.score(X_test, y_test))
print(scores)

[0.99991649071123, 0.99961700284223, 0.93882227671069, 0.74855318676232, -0.05741034640016]

Lasso-regressie voor featureselectie

Lasso kan belangrijke features selecteren
Krimpt coëfficiënten van minder belangrijke features naar nul
Features die niet naar nul krimpen, worden door lasso geselecteerd

Lasso voor featureselectie in scikit-learn

from sklearn.linear_model import Lasso

X = diabetes_df.drop("glucose", axis=1).values
y = diabetes_df["glucose"].values
names = diabetes_df.drop("glucose", axis=1).columns

lasso = Lasso(alpha=0.1)

lasso_coef = lasso.fit(X, y).coef_

plt.bar(names, lasso_coef)
plt.xticks(rotation=45)
plt.show()

Lasso voor featureselectie in scikit-learn

staafdiagram van coëfficiënten per feature, allemaal rond nul behalve diabetes met waarde 25

Laten we oefenen!

Supervised Learning met scikit-learn