Erreur de généralisation

Machine learning avec des modèles arborescents en Python

Elie Kawerk

Data Scientist

Apprentissage supervisé - En détail

Apprentissage supervisé : $y =f(x)$, $f$ est inconnue.

noisy-ds

Objectifs de l'apprentissage supervisé

Identifiez le modèle $\hat{f}$ qui correspond le mieux à $f$: $\hat{f} \approx f$
$\hat{f}$ peut être la régression logistique, l'arbre de décision, le réseau neuronal…
Éliminez autant que possible les bruits parasites.
Objectif final : $\hat{f}$ doit atteindre un faible taux d'erreur prédictive sur des ensembles de données non observés.

Difficultés d'approximation $f$

Surajustement :

$\hat{f}(x)$ correspond au bruit de l'ensemble d'entraînement.

Sous-ajustement :

$\hat{f}$ n'est pas suffisamment flexible pour s’approcher de $f$.

Surajustement

overfit

Sous-ajustement

underfit

Erreur de généralisation

Erreur de généralisation de $\hat{f}$: $\hat{f}$ a-t-il bien généralisé sur des données non observées ?
Peut être décomposé comme suit :

Erreur de généralisation de $\hat{f} = bias^2 + variance + \text{irreducible error}$

Biais

Biais : terme d'erreur qui indique, en moyenne, la valeur de $\hat{f} \neq f$.

high-bias

Variance

Variance : indique le degré d'incohérence de $\hat{f}$ entre différents ensembles d'apprentissage.

high-variance

Complexité du modèle

Complexité du modèle : définit la flexibilité de $\hat{f}$.
Exemple : Profondeur maximale de l'arbre, nombre minimal d'échantillons par feuille, etc.

Compromis biais-variance

gener-decomposition

Compromis biais-variance : Une explication visuelle

bias-variance-visual

Passons à la pratique !

Machine learning avec des modèles arborescents en Python

Preparing Video For Download...