Modelselectie: regressiemodellen

Machine Learning-sollicitatievragen oefenen in Python

Lisa Stuart

Data Scientist

Multicollineariteit

  • Hoge correlatie tussen onafhankelijke variabelen
  • Geschatte regressiecoëfficiënten
    • Verandering in AV verklaard door OV
    • Met andere variabelen constant

Multicollineariteit

1 https://eigenblogger.com/2010/03/26/post1426/
Machine Learning-sollicitatievragen oefenen in Python

Effecten van multicollineariteit

  • Verlaagde coëfficiënten
  • Verlaagde p-waarden
  • Instabiele variantie
  • Overfitting
  • Minder statistische significantie door hogere standaardfout
  • Ware relatie met doelvariabele onduidelijk
Machine Learning-sollicitatievragen oefenen in Python

Technieken tegen multicollineariteit

  • Correlatiematrix
  • Heatmap van correlaties
  • Variantie-inflatiefactor (VIF) berekenen
  • Regularisatie toepassen (Ridge, Lasso)
  • PCA
Machine Learning-sollicitatievragen oefenen in Python

Correlatiematrix vs heatmap

Heatmap

Machine Learning-sollicitatievragen oefenen in Python

Variance inflation factor

VIF-waarde Multicollineariteit
<= 1 nee
> 1 ja, maar te negeren
> 5 ja, aanpakken nodig
Machine Learning-sollicitatievragen oefenen in Python

Functies

Functie/methode retourneert
sklearn.linear_model.LinearRegression Linear Regression
data.corr() correlatiematrix
sns.heatmap(corr) heatmap van correlaties
mod.coef_ geschatte modelcoëfficiënten
mean_squared_error(y_test, y_pred) MSE
r2_score(y_test, y_pred) R-kwadraat
df.columns kolomnamen
Machine Learning-sollicitatievragen oefenen in Python

Laten we oefenen!

Machine Learning-sollicitatievragen oefenen in Python

Preparing Video For Download...