Fundamentos del aprendizaje por refuerzo

Reinforcement Learning con Gymnasium en Python

Fouad Trad

Machine Learning Engineer

Aprendizaje por refuerzo

El agente aprende por prueba y error

Imagen con dos iconos: uno del agente y otro del entorno.

Aprendizaje por refuerzo

El agente aprende por prueba y error

Imagen que muestra que el entorno da observaciones al agente.

Aprendizaje por refuerzo

El agente aprende por prueba y error

Imagen que muestra que el entorno proporciona observaciones al agente y luego el agente actúa en consecuencia.

Aprendizaje por refuerzo

El agente aprende por prueba y error
El agente recibe:
- Recompensas por buenas decisiones
- Penalizaciones por malas decisiones
Objetivo: maximizar el feedback positivo en el tiempo

Imagen que muestra que el entorno proporciona observaciones al agente; luego el agente actúa y recibe recompensas o penalizaciones según sus acciones.

AR como entrenar a una mascota

Imagen de un hombre mayor (el entorno) entrenando a una mascota (el agente).

AR vs. otros tipos de ML

La imagen muestra una tabla titulada «Aprendizaje supervisado»: usa datos etiquetados, el objetivo es predecir resultados a partir de entradas, y sirve para clasificación y regresión.

AR vs. otros tipos de ML

La imagen muestra una tabla que compara aprendizaje supervisado y no supervisado. Supervisado: datos etiquetados, objetivo predecir resultados, útil para clasificación y regresión. No supervisado: datos sin etiquetar, objetivo descubrir patrones o asociaciones, útil para clustering y análisis de asociaciones.