Machine Learning met boomgebaseerde modellen in Python
Elie Kawerk
Data Scientist

Vind een model $\hat{f}$ dat $f$ het best benadert: $\hat{f} \approx f$
$\hat{f}$ kan logistieke regressie, beslisboom, neurale netwerk, ... zijn
Filter ruis zo veel mogelijk weg.
Doel: $\hat{f}$ moet een lage voorspellingsfout halen op ongeziene datasets.
Overfitting:
$\hat{f}(x)$ past de ruis in de trainingset.
Underfitting:
$\hat{f}$ is niet flexibel genoeg om $f$ te benaderen.


Generalizatiefout van $\hat{f}$: generaliseert $\hat{f}$ goed naar onbekende data?
Die valt zo te ontbinden:
Generalizatiefout van $\hat{f} = bias^2 + variantie + onvermijdelijke fout


Modelcomplexiteit: bepaalt de flexibiliteit van $\hat{f}$.
Voorbeelden: maximale boomdiepte, minimum samples per blad, ...


Machine Learning met boomgebaseerde modellen in Python