Proximal policy optimization

Deep Reinforcement Learning in Python

Timothée Carayol

Principal Machine Learning Engineer, Komment

A2C

A2C policy-updates:
- Gebaseerd op volatiele schattingen
- Kunnen groot en instabiel zijn
Kan prestaties schaden

Een Marsrover ligt kapot na een ongeluk op ruw terrein

PPO

PPO begrenst de grootte van elke policy-update
Verbetert stabiliteit

Een Marsrover rijdt vrolijk over het Marsoppervlak

De kansratio

Belangrijkste vernieuwing in PPO: nieuwe doelfunctie
Kernidee:

Kansratio: verhouding tussen de kans op een actie onder het nieuwe beleid en de kans onder het oude beleid, genoteerd als r_t

Hoeveel waarschijnlijker is actie $a_t$ met $\theta$ dan met $\theta_{old}$?

  ratio = action_log_prob.exp() / 
          old_action_log_prob.exp().detach()

  # Of gelijkwaardig
  ratio = torch.exp(action_log_prob - 
          old_action_log_prob.detach())

detach de noemer om gradiënten niet door te geven

De kansratio clippen

Clip-functie:

Een grafiek van clip(x, 0.8, 1.2) tussen x=0.6 en x=1.4; de functie is .8 onder x=0.8; x tussen 0.8 en 1.2; 1.2 boven 1.2.

De afgeklemde kansratio is clip(r_t, 1-epsilon, 1+epsilon)

clipped_ratio = torch.clamp(ratio,
                            1-epsilon, 
                            1+epsilon)

De functie calculate_ratios

def calculate_ratios(action_log_prob, action_log_prob_old, epsilon):

    prob = action_log_prob.exp()
    prob_old = action_log_prob_old.exp()
    prob_old_detached = prob_old.detach()
    ratio = prob / prob_old_detached
    clipped_ratio = torch.clamp(ratio, 1-epsilon, 1+epsilon)

    return (ratio, clipped_ratio)

Voorbeeld met epsilon = .2:

        Ratio: tensor(1.25)

Afgeklemde ratio: tensor(1.20)

De PPO-doelfunctie

J surr = E_t(r_t * advantage)

surr1 = ratio * td_error.detach()

surr2 = clipped_ratio * td_error.detach()

objective = torch.min(surr1, surr2)

Surrogaat met afgeklemde ratio:

$$\mathrm{clip}(r_t(\theta),1-\varepsilon,1+\varepsilon)\hat{A}$$

PPO-doelfunctie met clipping:

Afgeklemde surrogaatdoelfunctie: verwachtingswaarde van het minimum tussen ratio * advantage en afgeklemde ratio * advantage.

Stabieler dan A2C

PPO-verlies berekenen

def calculate_losses(critic_network, 
                     action_log_prob,                                        
                     action_log_prob_old,
                     reward, state, next_state,
                     done
                     ):

    # bereken TD-fout (zoals A2C)
    value = critic_network(state)
    next_value = critic_network(next_state)
    td_target = (reward + 
                 gamma * next_value * (1-done))
    td_error = td_target - value
    ...

    ...
    ratio, clipped_ratio = 
            calculate_ratios(action_log_prob, 
                             action_log_prob_old,
                             epsilon)

    surr1 = ratio * td_error.detach()

    surr2 = clipped_ratio * td_error.detach()

    objective = torch.min(surr1, surr2)

    actor_loss = -objective

    critic_loss = td_error ** 2

    return actor_loss, critic_loss

Laten we oefenen!

Deep Reinforcement Learning in Python