Erreur de généralisation

Machine learning avec des modèles arborescents en Python

Elie Kawerk

Data Scientist

Apprentissage supervisé - En détail

  • Apprentissage supervisé : $y =f(x)$, $f$ est inconnue.

noisy-ds

Machine learning avec des modèles arborescents en Python

Objectifs de l'apprentissage supervisé

  • Identifiez le modèle $\hat{f}$ qui correspond le mieux à $f$: $\hat{f} \approx f$

  • $\hat{f}$ peut être la régression logistique, l'arbre de décision, le réseau neuronal…

  • Éliminez autant que possible les bruits parasites.

  • Objectif final : $\hat{f}$ doit atteindre un faible taux d'erreur prédictive sur des ensembles de données non observés.

Machine learning avec des modèles arborescents en Python

Difficultés d'approximation $f$

  • Surajustement :

    $\hat{f}(x)$ correspond au bruit de l'ensemble d'entraînement.

  • Sous-ajustement :

    $\hat{f}$ n'est pas suffisamment flexible pour s’approcher de $f$.

Machine learning avec des modèles arborescents en Python

Surajustement

overfit

Machine learning avec des modèles arborescents en Python

Sous-ajustement

underfit

Machine learning avec des modèles arborescents en Python

Erreur de généralisation

  • Erreur de généralisation de $\hat{f}$: $\hat{f}$ a-t-il bien généralisé sur des données non observées ?

  • Peut être décomposé comme suit :

    Erreur de généralisation de $\hat{f} = bias^2 + variance + \text{irreducible error}$

Machine learning avec des modèles arborescents en Python

Biais

  • Biais : terme d'erreur qui indique, en moyenne, la valeur de $\hat{f} \neq f$.

high-bias

Machine learning avec des modèles arborescents en Python

Variance

  • Variance : indique le degré d'incohérence de $\hat{f}$ entre différents ensembles d'apprentissage.

high-variance

Machine learning avec des modèles arborescents en Python

Complexité du modèle

  • Complexité du modèle : définit la flexibilité de $\hat{f}$.

  • Exemple : Profondeur maximale de l'arbre, nombre minimal d'échantillons par feuille, etc.

Machine learning avec des modèles arborescents en Python

Compromis biais-variance

gener-decomposition

Machine learning avec des modèles arborescents en Python

Compromis biais-variance : Une explication visuelle

bias-variance-visual

Machine learning avec des modèles arborescents en Python

Passons à la pratique !

Machine learning avec des modèles arborescents en Python

Preparing Video For Download...