Fundamentos de aprendizado por reforço
Reinforcement Learning com Gymnasium em Python
Fouad Trad
Machine Learning Engineer
Aprendizado por reforço
Agente aprende por tentativa e erro
Aprendizado por reforço
Agente aprende por tentativa e erro
Aprendizado por reforço
Agente aprende por tentativa e erro
Aprendizado por reforço
Agente aprende por tentativa e erro
Agente recebe:
Recompensas por boas decisões
Penalidades por decisões ruins
Objetivo
: maximizar o retorno positivo ao longo do tempo
RL como treinar um pet
RL vs. outros tipos de ML
RL vs. outros tipos de ML
RL vs. outros tipos de ML
Quando usar RL?
Decisão sequencial
Decisões influenciam observações futuras
Aprendizado por recompensas e penalidades
Sem supervisão direta
Adequado para RL: jogar videogames
Jogador toma decisões sequenciais
Ganha pontos e perde vidas conforme as ações
Inadequado para RL: reconhecimento de objetos no jogo
Sem decisão sequencial
Sem interação com um ambiente
Aplicações de RL
Robótica
Caminhada de robô
Manipulação de objetos
Aplicações de RL
Robótica
Caminhada de robô
Manipulação de objetos
Finanças
Otimizar negociação e investimento
Maximizar lucro
Aplicações de RL
Veículos autônomos
Mais segurança e eficiência
Menos risco de acidentes
Aplicações de RL
Veículos autônomos
Mais segurança e eficiência
Menos risco de acidentes
Desenvolvimento de chatbots
Melhorar habilidades de conversa
Melhorar a experiência do usuário
O que vem a seguir?
Neste curso, vamos:
Entender bases e princípios de RL
Identificar, formular e resolver problemas de RL
Aplicação com Gymnasium
Vamos praticar!
Reinforcement Learning com Gymnasium em Python
Preparing Video For Download...