Basis van reinforcement learning

Reinforcement Learning met Gymnasium in Python

Fouad Trad

Machine Learning Engineer

Reinforcement learning

Agent leert via trial-and-error

Afbeelding met twee iconen: een agent en een omgeving.

Reinforcement learning

Agent leert via trial-and-error

Afbeelding toont dat de omgeving observaties aan de agent geeft.

Reinforcement learning

Agent leert via trial-and-error

Afbeelding toont dat de omgeving de agent observaties geeft, waarna de agent daarop acties uitvoert.

Reinforcement learning

Agent leert via trial-and-error
Agent krijgt:
- Beloningen voor goede acties
- Straffen voor foute acties
Doel: positieve feedback door de tijd maximaliseren

Afbeelding toont dat de omgeving de agent observaties geeft, waarna de agent acties uitvoert en beloningen of straffen krijgt op basis van die acties.

RL als een huisdier trainen

Afbeelding van een oude man (de omgeving) die een huisdier (de agent) traint.

RL vs. andere ML-typen

De afbeelding toont een tabel met de titel "Supervised Learning" met gelabelde data, doel is uitkomsten voorspellen op basis van input, geschikt voor classificatie en regressie.

RL vs. andere ML-typen

Tabel vergelijkt Supervised en Unsupervised Learning. Supervised: gelabelde data, doel is voorspellen, geschikt voor classificatie en regressie. Unsupervised: ongelabelde data, doel is patronen/associaties vinden, geschikt voor clustering en associatieregels.

RL vs. andere ML-typen

De tabel voegt RL toe naast Supervised en Unsupervised. Supervised: gelabelde data om te voorspellen. Unsupervised: ongelabelde data om patronen te vinden. RL: geen vooraf gedefinieerde trainingsdata; focust op beslissingen die beloning uit de omgeving maximaliseren; geschikt voor besluitvormingstaken.