Proximal policy optimization

Deep Reinforcement Learning dengan Python

Timothée Carayol

Principal Machine Learning Engineer, Komment

A2C

Pembaruan kebijakan A2C:
- Berdasar estimasi yang mudah berubah
- Bisa besar dan tidak stabil
Dapat menurunkan kinerja

Sebuah penjelajah Mars rusak setelah mengalami kecelakaan di medan berat

PPO

PPO membatasi besar tiap pembaruan kebijakan
Meningkatkan stabilitas

Sebuah penjelajah Mars melaju dengan mulus di permukaan Mars

Rasio probabilitas

Inovasi utama PPO: fungsi objektif baru
Intinya:

Rasio probabilitas: perbandingan probabilitas sebuah aksi di bawah kebijakan baru dengan probabilitas di bawah kebijakan lama, dilambangkan r_t

Seberapa lebih mungkin aksi $a_t$ dengan $\theta$ dibanding $\theta_{old}$?

  ratio = action_log_prob.exp() / 
          old_action_log_prob.exp().detach()

  # Or equivalently
  ratio = torch.exp(action_log_prob - 
          old_action_log_prob.detach())

detach pembilang bawah untuk mencegah propagasi gradien

Mengklip rasio probabilitas

Fungsi clip:

Grafik clip(x, 0.8, 1.2) antara x=0.6 dan x=1.4; fungsi bernilai .8 di bawah x=0.8; sama dengan x antara 0.8 dan 1.2; 1.2 di atas 1.2.

Rasio probabilitas terklip adalah clip(r_t, 1-epsilon, 1+epsilon)

clipped_ratio = torch.clamp(ratio,
                            1-epsilon, 
                            1+epsilon)

Fungsi calculate_ratios

def calculate_ratios(action_log_prob, action_log_prob_old, epsilon):

    prob = action_log_prob.exp()
    prob_old = action_log_prob_old.exp()
    prob_old_detached = prob_old.detach()
    ratio = prob / prob_old_detached
    clipped_ratio = torch.clamp(ratio, 1-epsilon, 1+epsilon)

    return (ratio, clipped_ratio)

Contoh dengan epsilon = .2:

        Rasio: tensor(1.25)

Rasio terklip: tensor(1.20)

Fungsi objektif PPO

J surr = E_t(r_t * advantage)

surr1 = ratio * td_error.detach()

surr2 = clipped_ratio * td_error.detach()

objective = torch.min(surr1, surr2)

Surrogate dengan rasio terklip:

$$\mathrm{clip}(r_t(\theta),1-\varepsilon,1+\varepsilon)\hat{A}$$

Fungsi objektif surrogate terklip PPO:

Fungsi objektif surrogate terklip: nilai harapan dari minimum antara rasio * advantage dan rasio terklip * advantage.

Lebih stabil daripada A2C

Perhitungan loss PPO

def calculate_losses(critic_network, 
                     action_log_prob,                                        
                     action_log_prob_old,
                     reward, state, next_state,
                     done
                     ):

    # hitung galat TD (sama seperti A2C)
    value = critic_network(state)
    next_value = critic_network(next_state)
    td_target = (reward + 
                 gamma * next_value * (1-done))
    td_error = td_target - value
    ...

    ...
    ratio, clipped_ratio = 
            calculate_ratios(action_log_prob, 
                             action_log_prob_old,
                             epsilon)

    surr1 = ratio * td_error.detach()

    surr2 = clipped_ratio * td_error.detach()

    objective = torch.min(surr1, surr2)

    actor_loss = -objective

    critic_loss = td_error ** 2

    return actor_loss, critic_loss

Ayo berlatih!

Deep Reinforcement Learning dengan Python