Generalizatiefout

Machine Learning met boomgebaseerde modellen in Python

Elie Kawerk

Data Scientist

Supervised learning - onder de motorkap

  • Supervised learning: $y = f(x)$, $f$ is onbekend.

noisy-ds

Machine Learning met boomgebaseerde modellen in Python

Doelen van supervised learning

  • Vind een model $\hat{f}$ dat $f$ het best benadert: $\hat{f} \approx f$

  • $\hat{f}$ kan logistieke regressie, beslisboom, neurale netwerk, ... zijn

  • Filter ruis zo veel mogelijk weg.

  • Doel: $\hat{f}$ moet een lage voorspellingsfout halen op ongeziene datasets.

Machine Learning met boomgebaseerde modellen in Python

Moeilijkheden bij het benaderen van $f$

  • Overfitting:

    $\hat{f}(x)$ past de ruis in de trainingset.

  • Underfitting:

    $\hat{f}$ is niet flexibel genoeg om $f$ te benaderen.

Machine Learning met boomgebaseerde modellen in Python

Overfitting

overfit

Machine Learning met boomgebaseerde modellen in Python

Underfitting

underfit

Machine Learning met boomgebaseerde modellen in Python

Generalizatiefout

  • Generalizatiefout van $\hat{f}$: generaliseert $\hat{f}$ goed naar onbekende data?

  • Die valt zo te ontbinden:

    Generalizatiefout van $\hat{f} = bias^2 + variantie + onvermijdelijke fout

Machine Learning met boomgebaseerde modellen in Python

Bias

  • Bias: foutterm die aangeeft hoeveel $\hat{f}$ gemiddeld afwijkt van $f$.

high-bias

Machine Learning met boomgebaseerde modellen in Python

Variantie

  • Variantie: geeft aan hoe inconsistent $\hat{f}$ is over verschillende trainingsets.

high-variance

Machine Learning met boomgebaseerde modellen in Python

Modelcomplexiteit

  • Modelcomplexiteit: bepaalt de flexibiliteit van $\hat{f}$.

  • Voorbeelden: maximale boomdiepte, minimum samples per blad, ...

Machine Learning met boomgebaseerde modellen in Python

Bias-variantie-afruil

gener-decomposition

Machine Learning met boomgebaseerde modellen in Python

Bias-variantie-afruil: visuele uitleg

bias-variance-visual

Machine Learning met boomgebaseerde modellen in Python

Laten we oefenen!

Machine Learning met boomgebaseerde modellen in Python

Preparing Video For Download...