Supervised Learning met scikit-learn
George Boorman
Core Curriculum Manager, DataCamp
Herhaling: lineaire regressie minimaliseert een verliesfunctie
Het kiest een coëfficiënt, a, voor elke featurevariabele, plus b
Grote coëfficiënten kunnen overfitting geven
Regularisatie: penaliseer grote coëfficiënten
Verliesfunctie = OLS-verlies + $$ \alpha * \sum_{i=1}^{n} {a_i}^2$$
Ridge straft grote positieve of negatieve coëfficiënten
$\alpha$: parameter die we moeten kiezen
$\alpha$ kiezen lijkt op k kiezen in KNN
Hyperparameter: variabele om modelparameters te optimaliseren
$\alpha$ bepaalt modelcomplexiteit
$\alpha$ = 0 = OLS (kan tot overfitting leiden)
Zeer hoge $\alpha$: kan tot underfitting leiden
from sklearn.linear_model import Ridgescores = [] for alpha in [0.1, 1.0, 10.0, 100.0, 1000.0]:ridge = Ridge(alpha=alpha)ridge.fit(X_train, y_train) y_pred = ridge.predict(X_test)scores.append(ridge.score(X_test, y_test))print(scores)
[0.2828466623222221, 0.28320633574804777, 0.2853000732200006,
0.26423984812668133, 0.19292424694100963]
from sklearn.linear_model import Lassoscores = [] for alpha in [0.01, 1.0, 10.0, 20.0, 50.0]: lasso = Lasso(alpha=alpha) lasso.fit(X_train, y_train) lasso_pred = lasso.predict(X_test) scores.append(lasso.score(X_test, y_test)) print(scores)
[0.99991649071123, 0.99961700284223, 0.93882227671069, 0.74855318676232, -0.05741034640016]
Lasso kan belangrijke features selecteren
Krimpt coëfficiënten van minder belangrijke features naar nul
Features die niet naar nul krimpen, worden door lasso geselecteerd
from sklearn.linear_model import LassoX = diabetes_df.drop("glucose", axis=1).values y = diabetes_df["glucose"].values names = diabetes_df.drop("glucose", axis=1).columnslasso = Lasso(alpha=0.1)lasso_coef = lasso.fit(X, y).coef_plt.bar(names, lasso_coef) plt.xticks(rotation=45) plt.show()

Supervised Learning met scikit-learn