Machine learning avec des modèles arborescents en Python
Elie Kawerk
Data Scientist

Identifiez le modèle $\hat{f}$ qui correspond le mieux à $f$: $\hat{f} \approx f$
$\hat{f}$ peut être la régression logistique, l'arbre de décision, le réseau neuronal…
Éliminez autant que possible les bruits parasites.
Objectif final : $\hat{f}$ doit atteindre un faible taux d'erreur prédictive sur des ensembles de données non observés.
Surajustement :
$\hat{f}(x)$ correspond au bruit de l'ensemble d'entraînement.
Sous-ajustement :
$\hat{f}$ n'est pas suffisamment flexible pour s’approcher de $f$.


Erreur de généralisation de $\hat{f}$: $\hat{f}$ a-t-il bien généralisé sur des données non observées ?
Peut être décomposé comme suit :
Erreur de généralisation de $\hat{f} = bias^2 + variance + \text{irreducible error}$


Complexité du modèle : définit la flexibilité de $\hat{f}$.
Exemple : Profondeur maximale de l'arbre, nombre minimal d'échantillons par feuille, etc.


Machine learning avec des modèles arborescents en Python