Expected SARSA

Reinforcement Learning met Gymnasium in Python

Fouad Trad

Machine Learning Engineer

Expected SARSA

  • TD-methode
  • Modelvrije techniek
  • Werkt Q-tabel anders bij dan SARSA en Q-learning

Diagram met de stappen van Expected SARSA: Q-tabel initialiseren, een actie kiezen, een beloning krijgen, en de tabel bijwerken. De agent herhaalt dit tot convergentie na een aantal episodes.

Reinforcement Learning met Gymnasium in Python

Expected SARSA-update

SARSA

Afbeelding met de wiskundige formule van de SARSA-update.

Q-learning

Afbeelding met de wiskundige formule van de Q-learning-update.

Expected SARSA

Afbeelding met de wiskundige formule van de Expected SARSA-update.

Reinforcement Learning met Gymnasium in Python

Verwachte waarde van volgende toestand

Afbeelding met de wiskundige formule van de Expected SARSA-update.

  • Neemt alle acties mee

Afbeelding met de formule voor de verwachte Q-waarde van de volgende toestand.

  • Willekeurige acties → gelijke kansen

Afbeelding met de formule voor de verwachte Q-waarde van de volgende toestand bij gelijke kans op acties.

Reinforcement Learning met Gymnasium in Python

Implementatie met Frozen Lake

env = gym.make('FrozenLake-v1', 
               is_slippery=False)

num_states = env.observation_space.n
num_actions = env.action_space.n
Q = np.zeros((num_states, num_actions))

gamma = 0.99 alpha = 0.1 num_episodes = 1000

Afbeelding van de Frozen Lake-omgeving

Reinforcement Learning met Gymnasium in Python

Expected SARSA-update

def update_q_table(state, action, next_state, reward):

expected_q = np.mean(Q[next_state])
Q[state, action] = (1-alpha) * Q[state, action] + alpha * (reward + gamma * expected_q)

Afbeelding met de wiskundige formule van de Expected SARSA-update.

Reinforcement Learning met Gymnasium in Python

Trainen

for i in range(num_episodes):
    state, info = env.reset()    
    terminated = False  

while not terminated: action = env.action_space.sample()
next_state, reward, terminated, truncated, info = env.step(action)
update_q_table(state, action, next_state, reward) state = next_state
Reinforcement Learning met Gymnasium in Python

Beleid van de agent

policy = {state: np.argmax(Q[state]) 
          for state in range(num_states)}
print(policy)
{ 0: 1,  1: 2,  2: 1,  3: 0, 
  4: 1,  5: 0,  6: 1,  7: 0, 
  8: 2,  9: 2, 10: 1, 11: 0, 
 12: 0, 13: 2, 14: 2, 15: 0}

Afbeelding van het door de agent geleerde beleid: welke actie in elke toestand.

Reinforcement Learning met Gymnasium in Python

Laten we oefenen!

Reinforcement Learning met Gymnasium in Python

Preparing Video For Download...