Proximal policy optimization

Deep Reinforcement Learning dengan Python

Timothée Carayol

Principal Machine Learning Engineer, Komment

A2C

  • Pembaruan kebijakan A2C:
    • Berdasar estimasi yang mudah berubah
    • Bisa besar dan tidak stabil
  • Dapat menurunkan kinerja

Sebuah penjelajah Mars rusak setelah mengalami kecelakaan di medan berat

PPO

  • PPO membatasi besar tiap pembaruan kebijakan
  • Meningkatkan stabilitas

Sebuah penjelajah Mars melaju dengan mulus di permukaan Mars

Deep Reinforcement Learning dengan Python

Rasio probabilitas

  • Inovasi utama PPO: fungsi objektif baru
  • Intinya:

Rasio probabilitas: perbandingan probabilitas sebuah aksi di bawah kebijakan baru dengan probabilitas di bawah kebijakan lama, dilambangkan r_t

  • Seberapa lebih mungkin aksi $a_t$ dengan $\theta$ dibanding $\theta_{old}$?

 

  ratio = action_log_prob.exp() / 
          old_action_log_prob.exp().detach()

# Or equivalently ratio = torch.exp(action_log_prob - old_action_log_prob.detach())
  • detach pembilang bawah untuk mencegah propagasi gradien
Deep Reinforcement Learning dengan Python

Mengklip rasio probabilitas

 

  • Fungsi clip:

Grafik clip(x, 0.8, 1.2) antara x=0.6 dan x=1.4; fungsi bernilai .8 di bawah x=0.8; sama dengan x antara 0.8 dan 1.2; 1.2 di atas 1.2.

Rasio probabilitas terklip adalah clip(r_t, 1-epsilon, 1+epsilon)

 

 

clipped_ratio = torch.clamp(ratio,
                            1-epsilon, 
                            1+epsilon)
Deep Reinforcement Learning dengan Python

Fungsi calculate_ratios

 

def calculate_ratios(action_log_prob, action_log_prob_old, epsilon):

prob = action_log_prob.exp() prob_old = action_log_prob_old.exp() prob_old_detached = prob_old.detach() ratio = prob / prob_old_detached clipped_ratio = torch.clamp(ratio, 1-epsilon, 1+epsilon)
return (ratio, clipped_ratio)
Contoh dengan epsilon = .2:

Rasio: tensor(1.25)
Rasio terklip: tensor(1.20)
Deep Reinforcement Learning dengan Python

Fungsi objektif PPO

 

J surr = E_t(r_t * advantage)

surr1 = ratio * td_error.detach()

surr2 = clipped_ratio * td_error.detach()
objective = torch.min(surr1, surr2)

 

  • Surrogate dengan rasio terklip:

$$\mathrm{clip}(r_t(\theta),1-\varepsilon,1+\varepsilon)\hat{A}$$

  • Fungsi objektif surrogate terklip PPO:

Fungsi objektif surrogate terklip: nilai harapan dari minimum antara rasio * advantage dan rasio terklip * advantage.

  • Lebih stabil daripada A2C
Deep Reinforcement Learning dengan Python

Perhitungan loss PPO

 

def calculate_losses(critic_network, 
                     action_log_prob,                                        
                     action_log_prob_old,
                     reward, state, next_state,
                     done
                     ):

    # hitung galat TD (sama seperti A2C)
    value = critic_network(state)
    next_value = critic_network(next_state)
    td_target = (reward + 
                 gamma * next_value * (1-done))
    td_error = td_target - value
    ...

 

    ...
    ratio, clipped_ratio = 
            calculate_ratios(action_log_prob, 
                             action_log_prob_old,
                             epsilon)

surr1 = ratio * td_error.detach()
surr2 = clipped_ratio * td_error.detach()
objective = torch.min(surr1, surr2)
actor_loss = -objective
critic_loss = td_error ** 2 return actor_loss, critic_loss
Deep Reinforcement Learning dengan Python

Ayo berlatih!

Deep Reinforcement Learning dengan Python

Preparing Video For Download...