Regularisierte Regression

Überwachtes Lernen mit scikit-learn

George Boorman

Core Curriculum Manager, DataCamp

Notwendigkeit der Regularisierung

Zur Erinnerung: lineare Regression minimiert eine Verlustfunktion
Auswahl von Koeffizient $a$ für jede Merkmalsvariable und $b$
Große Koeffizienten können zu einer Überanpassung führen
Regularisierung: bestraft große Koeffizienten

Ridge-Regression

Verlustfunktion = OLS-Verlustfunktion + $$ \alpha * \sum_{i=1}^{n} {a_i}^2$$
Ridge bestraft große positive oder negative Koeffizienten
$\alpha$: festzulegender Parameter
Auswahl von $\alpha$ ähnelt der Auswahl von k beim KNN-Verfahren
Hyperparameter: genutzte Variable zur Optimierung der Modellparameter
$\alpha$ beeinflusst die Modellkomplexität
- $\alpha$ = 0 = OLS: kann zu Überanpassung führen
- Sehr hoher Wert für $\alpha$: kann zu Unteranpassung führen

Ridge-Regression in scikit-learn

from sklearn.linear_model import Ridge

scores = []
for alpha in [0.1, 1.0, 10.0, 100.0, 1000.0]:

    ridge = Ridge(alpha=alpha)

    ridge.fit(X_train, y_train)
    y_pred = ridge.predict(X_test)

    scores.append(ridge.score(X_test, y_test))

print(scores)

[0.2828466623222221, 0.28320633574804777, 0.2853000732200006, 
 0.26423984812668133, 0.19292424694100963]

Lasso-Regression

Verlustfunktion = OLS-Verlustfunktion + $$ \alpha * \sum_{i=1}^{n} |a_i|$$

Lasso-Regression in scikit-learn

from sklearn.linear_model import Lasso

scores = []
for alpha in [0.01, 1.0, 10.0, 20.0, 50.0]:
  lasso = Lasso(alpha=alpha)
  lasso.fit(X_train, y_train)
  lasso_pred = lasso.predict(X_test)
  scores.append(lasso.score(X_test, y_test))
print(scores)

[0.99991649071123, 0.99961700284223, 0.93882227671069, 0.74855318676232, -0.05741034640016]

Lasso-Regression für die Merkmalsauswahl

Lasso kann wichtige Merkmale im Datensatz identifizieren
Koeffizienten von weniger wichtigen Merkmalen werden auf etwa null reduziert
Merkmale mit Koeffizienten ungleich null werden von Lasso ausgewählt

Lasso für die Merkmalsauswahl in scikit-learn

from sklearn.linear_model import Lasso

X = diabetes_df.drop("glucose", axis=1).values
y = diabetes_df["glucose"].values
names = diabetes_df.drop("glucose", axis=1).columns

lasso = Lasso(alpha=0.1)

lasso_coef = lasso.fit(X, y).coef_

plt.bar(names, lasso_coef)
plt.xticks(rotation=45)
plt.show()

Lasso für die Merkmalsauswahl in scikit-learn

Balkendiagramm mit den Koeffizienten aller Merkmale, die fast alle etwa gleich null sind, außer dem Koeffizienten für den Diabetes-Status, der den Wert 25 hat

Lass uns üben!

Überwachtes Lernen mit scikit-learn