Notions de base de l’apprentissage par renforcement

Reinforcement Learning avec Gymnasium en Python

Fouad Trad

Machine Learning Engineer

Apprentissage par renforcement

L’agent apprend par essais-erreurs

Image montrant deux icônes : un agent et l’environnement.

Apprentissage par renforcement

L’agent apprend par essais-erreurs

Image montrant que l’environnement fournit des observations à l’agent.

Apprentissage par renforcement

L’agent apprend par essais-erreurs

Image montrant que l’environnement fournit des observations à l’agent, puis l’agent agit en conséquence.

Apprentissage par renforcement

L’agent apprend par essais-erreurs
L’agent reçoit :
- Récompenses pour de bonnes décisions
- Pénalités pour de mauvaises décisions
Objectif : maximiser les retours positifs dans le temps

Image montrant que l’environnement fournit des observations à l’agent, puis l’agent agit et reçoit des récompenses ou pénalités selon ses actions.

AR comme dressage d’un animal

Image montrant un homme âgé (l’environnement) dressant un animal de compagnie (l’agent).

AR vs. autres types d’AM

L’image montre un tableau intitulé « Apprentissage supervisé », indiquant que le type de données est étiqueté, l’objectif est de prédire des résultats à partir des entrées, adapté à la classification et à la régression.

AR vs. autres types d’AM

L’image montre un tableau comparant l’apprentissage supervisé et non supervisé. Supervisé : données étiquetées, objectif : prédire des résultats, adapté à la classification et à la régression. Non supervisé : données non étiquetées, objectif : découvrir des motifs ou associations, adapté au clustering et à l’analyse d’association.