Regressie: featureselectie

Machine Learning-sollicitatievragen oefenen in Python

Lisa Stuart

Data Scientist

De juiste features kiezen:

  • Vermindert overfitting
  • Verbetert nauwkeurigheid
  • Verhoogt interpreteerbaarheid
  • Verkort trainingstijd

Stappen featureselectie

1 https://www.analyticsindiamag.com/what-are-feature-selection-techniques-in-machine-learning/
Machine Learning-sollicitatievragen oefenen in Python

Methoden voor featureselectie

  • Filter: Rangschik features op statistische prestatie
  • Wrapper: Gebruik een ML-methode om prestatie te meten
  • Embedded: Iteratief model trainen om features te extraheren
  • Feature-importance: boomgebaseerde ML-modellen
Machine Learning-sollicitatievragen oefenen in Python

Methoden vergelijken

Methode Gebruik ML-model Selecteert beste subset Kan overfitten
Filter Nee Nee Nee
Wrapper Ja Ja Soms
Embedded Ja Ja Ja
Feature-importance Ja Ja Ja
Machine Learning-sollicitatievragen oefenen in Python

Correlatiecoëfficiënt: statistische toetsen

Feature/Respons Continue Categorisch
Continue Pearson-correlatie LDA
Categorisch ANOVA Chi-kwadraat
Machine Learning-sollicitatievragen oefenen in Python

Filterfuncties

Functie retourneert
df.corr() Pearson-correlatiematrix
sns.heatmap(corr_object) heatmap-plot
abs() absolute waarde
Machine Learning-sollicitatievragen oefenen in Python

Wrapper-methoden

  1. Forward selection (LARS-least angle regression)
    • Start zonder features, voegt er steeds één toe
  2. Backward elimination
    • Start met alle features, verwijdert er steeds één
  3. Combinatie forward/backward (bidirectionele eliminatie)
  4. Recursive feature elimination
    • RFECV
Machine Learning-sollicitatievragen oefenen in Python

Embedded-methoden

  1. Lasso-regressie
  2. Ridge-regressie
  3. ElasticNet

Lasso, Ridge en ElasticNet

Machine Learning-sollicitatievragen oefenen in Python

Boomgebaseerde feature-importance-methoden

  • Random Forest --> sklearn.ensemble.RandomForestRegressor
  • Extra Trees --> sklearn.ensemble.ExtraTreesRegressor
  • Na fitten --> tree_mod.feature_importances_
Machine Learning-sollicitatievragen oefenen in Python
Functie retourneert
sklearn.svm.SVR support vector regression-estimator
sklearn.feature_selection.RFECV recursive feature elimination met cross-val
rfe_mod.support_ boole-array met gekozen features
ref_mod.ranking_ featureranking, gekozen=1
sklearn.linear_model.LinearRegression lineaire model-estimator
sklearn.linear_model.LarsCV least angle regression met cross-val
LarsCV.score r-kwadraat-score
LarsCV.alpha_ geschatte regularisatieparameter
Machine Learning-sollicitatievragen oefenen in Python

Laten we oefenen!

Machine Learning-sollicitatievragen oefenen in Python

Preparing Video For Download...