Funciones valor-acción

Reinforcement Learning con Gymnasium en Python

Fouad Trad

Machine Learning Engineer

Funciones valor-acción (Q-valores)

  • Retorno esperado de:
    • Empezando en un estado $s$
    • Tomando la acción $a$
    • Siguiendo la política
  • Estima la conveniencia de acciones dentro de estados

Imagen con la fórmula para calcular el q_valor para un estado y acción, Q(s,a) como la suma de la recompensa inmediata tras la acción y el valor descontado del nuevo estado para una política dada.

Reinforcement Learning con Gymnasium en Python

Mundo en cuadrícula

Imagen del entorno con 2 montañas y un diamante.

  • Valores de estado

Imagen con los valores de estado calculados antes para todos los estados.

Reinforcement Learning con Gymnasium en Python

Q-valores - estado 4

Imagen del agente en el estado 4.

  • Agente nace en el estado 4

Imagen con los valores de estado calculados antes para todos los estados.

Reinforcement Learning con Gymnasium en Python

Q-valores - estado 4

Imagen de las 4 acciones posibles en el estado 4 con sus recompensas.

  • El agente puede ir arriba, abajo, izquierda, derecha

Imagen con los valores de estado calculados antes para todos los estados.

Reinforcement Learning con Gymnasium en Python

Estado 4 - acción abajo

Imagen del agente bajando del estado 4 al estado 7.

  • Recompensa: -2, valor de estado: 5

Imagen con los valores de estado calculados antes para todos los estados.

Reinforcement Learning con Gymnasium en Python

Estado 4 - acción abajo

Imagen del agente bajando del estado 4 al 7, y el q-valor correspondiente de 3.

  • $Q(4, \text{down}) = -2 + 1 \times 5 = 3$

Imagen con los valores de estado calculados antes para todos los estados.

Reinforcement Learning con Gymnasium en Python

Estado 4 - acción izquierda

Imagen del agente yendo a la izquierda del estado 4 al 3, y el q-valor correspondiente de 1.

  • $Q(4, \text{left}) = -1 + 1 \times 2 = 1$

Imagen con los valores de estado calculados antes para todos los estados.

Reinforcement Learning con Gymnasium en Python

Estado 4 - acción arriba

Imagen del agente subiendo del estado 4 al 1, y el q-valor correspondiente de 7.

  • $Q(4, \text{up}) = -1 + 1 \times 8 = 7$

Imagen con los valores de estado calculados antes para todos los estados.

Reinforcement Learning con Gymnasium en Python

Estado 4 - acción derecha

Imagen del agente yendo a la derecha del estado 4 al 5, y el q-valor correspondiente de 9.

  • $Q(4, \text{right}) = -1 + 1 \times 10 = 9$

Imagen con los valores de estado calculados antes para todos los estados.

Reinforcement Learning con Gymnasium en Python

Todos los Q-valores

Imagen con los q-valores calculados para todos los pares estado-acción.

Reinforcement Learning con Gymnasium en Python

Cálculo de Q-valores

def compute_q_value(state, action):

if state == terminal_state: return None
_, next_state, reward, _ = env.unwrapped.P[state][action][0] return reward + gamma * compute_state_value(next_state)

Imagen con la fórmula para calcular el q_valor para un estado y acción, Q(s,a) como la suma de la recompensa inmediata tras la acción y el valor descontado del nuevo estado para una política dada.

Reinforcement Learning con Gymnasium en Python

Cálculo de Q-valores

Q = {(state, action): compute_q_value(state, action)
     for state in range(num_states) 
     for action in range(num_actions)}

print(Q)
Reinforcement Learning con Gymnasium en Python

Cálculo de Q-valores

{(0, 0): 0, (0, 1): 1, (0, 2): 7, (0, 3): 0, 
 (1, 0): 0, (1, 1): 5, (1, 2): 8, (1, 3): 7, 
 (2, 0): 7, (2, 1): 9, (2, 2): 8, (2, 3): 8, 
 (3, 0): 1, (3, 1): 2, (3, 2): 5, (3, 3): 0, 
 (4, 0): 1, (4, 1): 3, (4, 2): 9, (4, 3): 7, 
 (5, 0): 5, (5, 1): 10, (5, 2): 9, (5, 3): 8, 
 (6, 0): 2, (6, 1): 2, (6, 2): 3, (6, 3): 1, 
 (7, 0): 2, (7, 1): 3, (7, 2): 10, (7, 3): 5, 
 (8, 0): None, (8, 1): None, (8, 2): None, (8, 3): None}

Imagen con los q-valores calculados para todos los pares estado-acción.

Reinforcement Learning con Gymnasium en Python

Mejora de la política

Imagen con los q-valores calculados para todos los pares estado-acción.

Reinforcement Learning con Gymnasium en Python

Mejora de la política

  • Elegir en cada estado la acción con mayor Q-valor

Imagen con los q-valores calculados y el máximo de cada estado resaltado.

Reinforcement Learning con Gymnasium en Python

Mejora de la política

Imagen de la política antigua y sus Q-valores Política antigua

Imagen de la nueva política al tomar la acción con el q-valor máximo.

Reinforcement Learning con Gymnasium en Python

Mejora de la política

improved_policy = {}


for state in range(num_states-1): max_action = max(range(num_actions), key=lambda action: Q[(state, action)])
improved_policy[state] = max_action
print(improved_policy)
{0: 2, 1: 2, 2: 1, 
 3: 2, 4: 2, 5: 1, 
 6: 2, 7: 2}
Reinforcement Learning con Gymnasium en Python

¡Vamos a practicar!

Reinforcement Learning con Gymnasium en Python

Preparing Video For Download...