Pembaruan batch pada policy gradient

Deep Reinforcement Learning dengan Python

Timothée Carayol

Principal Machine Learning Engineer, Komment

Pembaruan gradien per langkah vs batch

Sebuah kotak besar mewakili satu episode.

Pembaruan gradien per langkah vs batch

Di kotak besar, muncul kotak lebih kecil mewakili step 1. Di dalamnya, kotak lain dengan teks 'select action.'

Pembaruan gradien per langkah vs batch

Di kotak step 1, muncul kotak kecil lain dengan teks 'iterate environment'

Pembaruan gradien per langkah vs batch

Di bawah kotak step 1, kotak lain dengan label 'hitung loss' dan 'gradient descent'

Pembaruan gradien per langkah vs batch

Sepasang kotak identik muncul untuk langkah kedua, dengan konten yang sama

Pembaruan gradien per langkah vs batch

Langkah 3 dan langkah 4 juga muncul.

Batching pembaruan A2C / PPO

Sebuah kotak episode besar; di setengah areanya, kotak lain berlabel 'rollout 1'; di dalamnya, dua kotak kosong berlabel 'step 1' dan 'step 2'

Batching pembaruan A2C / PPO

Di kotak step 1, muncul label 'pilih aksi' dan 'iterasi environment'.

Batching pembaruan A2C / PPO

Sama untuk step 2.

Batching pembaruan A2C / PPO

Di bawah kotak step 1 dan step 2, muncul satu label 'hitung loss' dan satu label 'gradient descent'.

Batching pembaruan A2C / PPO

Setengah area episode yang tersisa kini diisi kotak rollout lain identik dengan dua langkah, berlabel 'rollout 2'.

Loop pelatihan A2C dengan pembaruan batch

# Set rollout length
rollout_length = 10

# Initiate loss batches

actor_losses = torch.tensor([])
critic_losses = torch.tensor([])

Inisialisasi batch loss
Iterasi episode dan langkah seperti biasa

for episode in range(10):
  state, info = env.reset()
  done = False
  while not done:
    action, action_log_prob = select_action(actor, 
                                            state)                
    next_state, reward, terminated, truncated, _ = (
                                   env.step(action))
    done = terminated or truncated    
    actor_loss, critic_loss = calculate_losses(
        critic, action_log_prob, 
        reward, state, next_state, done)
    ...

Loop pelatihan A2C dengan pembaruan batch

  ...
  actor_losses = torch.cat((actor_losses, actor_loss))
  critic_losses = torch.cat((critic_losses, critic_loss))


  # If rollout is full, update the networks
  if len(actor_losses) >= rollout_length:

    actor_loss_batch = actor_losses.mean()
    critic_loss_batch = critic_losses.mean()

    actor_optimizer.zero_grad()
    actor_loss_batch.backward()
    actor_optimizer.step()
    critic_optimizer.zero_grad()
    critic_loss_batch.backward()
    critic_optimizer.step()

    actor_losses = torch.tensor([])
    critic_losses = torch.tensor([])


  state = next_state

Tambahkan loss langkah ke batch loss
Saat rollout penuh:
- Ambil rata-rata batch dengan .mean()
- Lakukan gradient descent
- Inisialisasi ulang batch loss

A2C / PPO dengan banyak agen

Rollout dan minibatch

PPO dengan banyak epoch

Gambar mirip sebelumnya, kecuali batch rollout kini juga terbagi vertikal menjadi 4 area: paling atas label 'shuffle'; kedua kotak besar berlabel 'epoch 1' berisi 4 minibatch memanjang; ketiga label 'reshuffle'; terakhir kotak besar berlabel 'epoch 2' juga berisi 4 minibatch. Legenda: 'Panjang rollout: 8 langkah; ukuran minibatch: 4 (2x2); jumlah agen: 2; jumlah epoch: 2'.

Ayo berlatih!

Deep Reinforcement Learning dengan Python