Regressie: regularisatie

Machine Learning-sollicitatievragen oefenen in Python

Lisa Stuart

Data Scientist

Regularisatie-algoritmen

  • Ridge-regressie
  • Lasso-regressie
  • ElasticNet-regressie
Machine Learning-sollicitatievragen oefenen in Python

Kleinste-kwadratenmethode (OLS)

OLS-plot

OLS-formule

1 https://en.wikipedia.org/wiki/Linear_regression#Simple_and_multiple_linear_regression
Machine Learning-sollicitatievragen oefenen in Python

Ridge-verliesfunctie

Ridge-regressieplot

Ridge-regressieformule

1 https://gerardnico.com/data_mining/ridge_regression#tuning_parameter_math_lambdamath
Machine Learning-sollicitatievragen oefenen in Python

Lasso-verliesfunctie

Lasso-regressieplot

Lasso-regressieformule

1 https://stats.stackexchange.com/questions/155192/why-discrepancy-between-lasso-and-randomforest
Machine Learning-sollicitatievragen oefenen in Python

Ridge vs lasso

Regularisatie L1 (Lasso) L2 (Ridge)
straft som van absolute waarden van coëfficiënten som van kwadraten van coëfficiënten
oplossingen schaars niet-schaars
aantal oplossingen meerdere één
featureselectie ja nee
robuust voor uitschieters? ja nee
complexe patronen? nee ja
Machine Learning-sollicitatievragen oefenen in Python

ElasticNet

ElasticNet-formule

Machine Learning-sollicitatievragen oefenen in Python

Regularisatie met Boston-housingdata

Features CHAS NOX RM
Coëfficiëntschattingen 2.7 -17.8 3.8
Geregulariseerde coëfficiënten 0 0 0.95
Machine Learning-sollicitatievragen oefenen in Python

Regularisatiefuncties

# Lasso estimator 
sklearn.linear_model.Lasso

# Lasso estimator with cross-validation
sklearn.linear_model.LassoCV

# Ridge estimator
sklearn.linear_model.Ridge

# Ridge estimator with cross-validation
sklearn.linear_model.RidgeCV

# ElasticNet estimator
sklearn.linear_model.ElasticNet
# ElasticNet estimator with cross-validation
sklearn.linear_model.ElasticNetCV

# Train/test split
sklearn.model_selection.train_test_split

# Mean squared error
sklearn.metrics.mean_squared_error(y_test, 
                           predict(X_test))
# Best regularization parameter
mod_cv.alpha_

# Array of log values
alphas=np.logspace(-6, 6, 13)
Machine Learning-sollicitatievragen oefenen in Python

Laten we oefenen!

Machine Learning-sollicitatievragen oefenen in Python

Preparing Video For Download...