Het basis DQN-algoritme

Deep Reinforcement Learning in Python

Timothée Carayol

Principal Machine Learning Engineer, Komment

De basis DQN

Eerste stap richting de volledige DQN
Kenmerken:
- Generieke DRL-trainingslus
- Een Q-netwerk
- Principes van Q-learning

for episode in range(1000):
  state, info = env.reset()
  done = False
  while not done:
    # Action selection
    action = select_action(network, state)
    next_state, reward, terminated, truncated, _ = (
                                   env.step(action))
    done = terminated or truncated
    # Loss calculation
    loss = calculate_loss(network, state, action, 
                          next_state, reward, done)
    optimizer.zero_grad()
    loss.backward()
    optimizer.step()
    state = next_state

Actiekeuze in de basis DQN

def select_action(q_network, state):

    # Feed state to network to obtain Q-values

    q_values = q_network(state)

    # Obtain index of action with highest Q-value
    action = torch.argmax(q_values).item()

    return action

Policy: kies de actie met de hoogste Q-waarde
- $ a_t = {\arg\max}_a Q(S_t, a) $
- Hier: actie 2, met Q-waarde 0.12

Q-values: [-0.01, 0.08, 0.12, -0.07]

Gekozen actie: 2, met q-waarde 0.12

De basis DQN-verliesfunctie

Actiewaardefunctie voldoet aan de Bellman-vergelijking
Idee: minimaliseer het verschil tussen beide kanten (TD-/Bellman-fout)
Gebruik het kwadraat van de Bellman-fout als verliesfunctie:

DQN-verlies (kwadraat Bellman-fout): L(theta) = kwadraat van Bellman-fout

De Bellman-vergelijking Q(S,A) = reward + discount * max(Q(S_next,A))

De Bellman-fout Q(S,A) - (reward + discount * max(Q(S_next,A)))

De basis DQN-verliesfunctie

def calculate_loss(
      q_network, state, action,
      next_state, reward, done):

    q_values = q_network(state)

    current_state_q_value = q_values[action]

    next_state_q_value = q_network(next_state).max()

    target_q_value = reward +
                gamma * next_state_q_value * (1-done)

    loss = nn.MSELoss()(
              current_state_q_value, target_q_value)

    return loss

Huidige Q-waarde:

$Q(s_t, a_t)$

Volgende Q-waarde:

$\max_a Q(s_{t+1}, a)$

Doel-Q-waarde:

$r_{t+1} + \gamma \max_a Q(s_{t+1}, a)$

DQN-verlies:

$$\left(Q(s_t, a_t) - (r_{t+1} + \gamma \max_a Q(s_{t+1}, a)\right)^2$$

Episodes beschrijven

describe_episode(episode, reward, episode_reward, step)

| Episode    1 | Duration:   84 steps | Return: -871.38 | Crashed  |

| Episode    2 | Duration:   53 steps | Return: -452.68 | Crashed  |

| Episode    3 | Duration:   57 steps | Return: -414.22 | Crashed  |
| Episode    4 | Duration:   54 steps | Return: -475.09 | Crashed  |

| Episode    5 | Duration:   67 steps | Return: -532.31 | Crashed  |
| Episode    6 | Duration:   53 steps | Return: -407.00 | Crashed  |
| Episode    7 | Duration:   52 steps | Return: -380.45 | Crashed  |
| Episode    8 | Duration:   55 steps | Return: -380.75 | Crashed  |
| Episode    9 | Duration:   88 steps | Return: -688.68 | Crashed  |
| Episode   10 | Duration:   76 steps | Return: -338.06 | Crashed  |

Laten we oefenen!

Deep Reinforcement Learning in Python