Regularized linear regression

Dimensionality Reduction in Python

Jeroen Boeye

Head of Machine Learning, Faktion

Linear model concept

features to target

3 feature distributions

3 feature distributions

Creating our own target feature:

$y = 20 + 5x_1 + 2x_2 + 0x_3 + error$

from sklearn.linear_model import LinearRegression

lr = LinearRegression()
lr.fit(X_train, y_train)

# Actual coefficients = [5 2 0]
print(lr.coef_)

[ 4.95  1.83 -0.05]

# Actual intercept = 20
print(lr.intercept_)

19.8

# Calculates R-squared
print(lr.score(X_test, y_test))

0.976

from sklearn.linear_model import LinearRegression

lr = LinearRegression()
lr.fit(X_train, y_train)

# Actual coefficients = [5 2 0]
print(lr.coef_)

[ 4.95  1.83 -0.05]

predicted vs. actual

predicted vs. actual with MSE

predicted vs. actual with MSE + formula

predicted vs. actual with MSE + formula + annotated

predicted vs. actual with MSE + formula + alpha

from sklearn.linear_model import Lasso

la = Lasso()
la.fit(X_train, y_train)

# Actual coefficients = [5 2 0]
print(la.coef_)

[4.07 0.59 0.  ]

print(la.score(X_test, y_test))

0.861

from sklearn.linear_model import Lasso

la = Lasso(alpha=0.05)
la.fit(X_train, y_train)

# Actual coefficients = [5 2 0]
print(la.coef_)

[ 4.91  1.76 0.  ]

print(la.score(X_test, y_test))

0.974

Dimensionality Reduction in Python