Fundamentos de aprendizado por reforço

Reinforcement Learning com Gymnasium em Python

Fouad Trad

Machine Learning Engineer

Aprendizado por reforço

Agente aprende por tentativa e erro

Imagem mostrando dois ícones, um para o agente e outro para o ambiente.

Aprendizado por reforço

Agente aprende por tentativa e erro

Imagem mostrando que observações são dadas do ambiente ao agente.

Aprendizado por reforço

Agente aprende por tentativa e erro

Imagem mostrando que o ambiente fornece observações ao agente, e então o agente executa ações de acordo.

Aprendizado por reforço

Agente aprende por tentativa e erro
Agente recebe:
- Recompensas por boas decisões
- Penalidades por decisões ruins
Objetivo: maximizar o retorno positivo ao longo do tempo

Imagem mostrando que o ambiente fornece observações ao agente, então o agente executa ações e recebe recompensas ou penalidades com base nessas ações.

RL como treinar um pet

Imagem mostrando um senhor (o ambiente) treinando um pet (o agente).

RL vs. outros tipos de ML

A imagem mostra uma tabela com o título "Supervised Learning", indicando que o tipo de dado é rotulado, o objetivo é prever resultados a partir de entradas, e é adequado para classificação e regressão.

RL vs. outros tipos de ML

A imagem mostra uma tabela comparando Supervised Learning e Unsupervised Learning. Em Supervised Learning: dados rotulados, objetivo de prever resultados com base nas entradas, adequado para classificação e regressão. Em Unsupervised Learning: dados não rotulados, objetivo de descobrir padrões ou associações, adequado para clustering e análise de associações.