Funciones valor-acción

Reinforcement Learning con Gymnasium en Python

Fouad Trad

Machine Learning Engineer

Funciones valor-acción (Q-valores)

Retorno esperado de:
- Empezando en un estado $s$
- Tomando la acción $a$
- Siguiendo la política
Estima la conveniencia de acciones dentro de estados

Imagen con la fórmula para calcular el q_valor para un estado y acción, Q(s,a) como la suma de la recompensa inmediata tras la acción y el valor descontado del nuevo estado para una política dada.

Mundo en cuadrícula

Imagen del entorno con 2 montañas y un diamante.

Valores de estado

Imagen con los valores de estado calculados antes para todos los estados.

Q-valores - estado 4

Imagen del agente en el estado 4.

Agente nace en el estado 4

Imagen con los valores de estado calculados antes para todos los estados.

Q-valores - estado 4

Imagen de las 4 acciones posibles en el estado 4 con sus recompensas.

El agente puede ir arriba, abajo, izquierda, derecha

Imagen con los valores de estado calculados antes para todos los estados.

Estado 4 - acción abajo

Imagen del agente bajando del estado 4 al estado 7.

Recompensa: -2, valor de estado: 5

Imagen con los valores de estado calculados antes para todos los estados.

Estado 4 - acción abajo

Imagen del agente bajando del estado 4 al 7, y el q-valor correspondiente de 3.

$Q(4, \text{down}) = -2 + 1 \times 5 = 3$

Imagen con los valores de estado calculados antes para todos los estados.

Estado 4 - acción izquierda

Imagen del agente yendo a la izquierda del estado 4 al 3, y el q-valor correspondiente de 1.

$Q(4, \text{left}) = -1 + 1 \times 2 = 1$

Imagen con los valores de estado calculados antes para todos los estados.

Estado 4 - acción arriba

Imagen del agente subiendo del estado 4 al 1, y el q-valor correspondiente de 7.

$Q(4, \text{up}) = -1 + 1 \times 8 = 7$

Imagen con los valores de estado calculados antes para todos los estados.

Estado 4 - acción derecha

Imagen del agente yendo a la derecha del estado 4 al 5, y el q-valor correspondiente de 9.

$Q(4, \text{right}) = -1 + 1 \times 10 = 9$

Imagen con los valores de estado calculados antes para todos los estados.

Todos los Q-valores

Imagen con los q-valores calculados para todos los pares estado-acción.

Cálculo de Q-valores

def compute_q_value(state, action):

    if state == terminal_state:
        return None

    _, next_state, reward, _ = env.unwrapped.P[state][action][0]
    return reward + gamma * compute_state_value(next_state)

Imagen con la fórmula para calcular el q_valor para un estado y acción, Q(s,a) como la suma de la recompensa inmediata tras la acción y el valor descontado del nuevo estado para una política dada.

Cálculo de Q-valores

Q = {(state, action): compute_q_value(state, action)
     for state in range(num_states) 
     for action in range(num_actions)}


print(Q)

Cálculo de Q-valores

{(0, 0): 0, (0, 1): 1, (0, 2): 7, (0, 3): 0, 
 (1, 0): 0, (1, 1): 5, (1, 2): 8, (1, 3): 7, 
 (2, 0): 7, (2, 1): 9, (2, 2): 8, (2, 3): 8, 
 (3, 0): 1, (3, 1): 2, (3, 2): 5, (3, 3): 0, 
 (4, 0): 1, (4, 1): 3, (4, 2): 9, (4, 3): 7, 
 (5, 0): 5, (5, 1): 10, (5, 2): 9, (5, 3): 8, 
 (6, 0): 2, (6, 1): 2, (6, 2): 3, (6, 3): 1, 
 (7, 0): 2, (7, 1): 3, (7, 2): 10, (7, 3): 5, 
 (8, 0): None, (8, 1): None, (8, 2): None, (8, 3): None}

Imagen con los q-valores calculados para todos los pares estado-acción.

Mejora de la política

Imagen con los q-valores calculados para todos los pares estado-acción.

Mejora de la política

Elegir en cada estado la acción con mayor Q-valor

Imagen con los q-valores calculados y el máximo de cada estado resaltado.

Mejora de la política

Imagen de la política antigua y sus Q-valores Política antigua

Imagen de la nueva política al tomar la acción con el q-valor máximo.

Mejora de la política

improved_policy = {}


for state in range(num_states-1):
    max_action = max(range(num_actions), key=lambda action: Q[(state, action)])

    improved_policy[state] = max_action


print(improved_policy)

{0: 2, 1: 2, 2: 1, 
 3: 2, 4: 2, 5: 1, 
 6: 2, 7: 2}

¡Vamos a practicar!

Reinforcement Learning con Gymnasium en Python

Preparing Video For Download...