Politika yinelemesi ve değer yinelemesi

Python ile Gymnasium'da Reinforcement Learning

Fouad Trad

Machine Learning Engineer

Politika yinelemesi

En iyi politikayı bulmak için yinelemeli süreç

İlk adımın, politikanın başlatılmasının gösterimi.

Politika yinelemesi

En iyi politikayı bulmak için yinelemeli süreç

İki adım: politikayı başlatma ve değerlendirme.

Politika yinelemesi

En iyi politikayı bulmak için yinelemeli süreç

Üç adım: politikayı başlatma, değerlendirme ve iyileştirme.

Politika yinelemesi

En iyi politikayı bulmak için yinelemeli süreç

Politikayı değerlendirme ve iyileştirme sürecinin yinelemeli olduğu ve politika değişmeyene kadar tekrarlandığı gösterilir.

Politika yinelemesi

En iyi politikayı bulmak için yinelemeli süreç

Politika yinelemesinin akışı: bir politikayı başlatma; değerlendirme ve iyileştirme arasında dönüşümlü olarak ilerleme; sonunda en iyi politikaya ulaşma.

Izgara dünyası

policy = {
    0:1, 1:2, 2:1, 
    3:1, 4:3, 5:1,
    6:2, 7:3
}

Her durumda hareketi gösteren oklarla politika.

Politika değerlendirme

def policy_evaluation(policy):

    V = {state: compute_state_value(state, policy) for state in range(num_states)}

    return V

Politika iyileştirme

def policy_improvement(policy):

    improved_policy = {s: 0 for s in range(num_states-1)}

    Q = {(state, action): compute_q_value(state, action, policy)
      for state in range(num_states) for action in range(num_actions)}


    for state in range(num_states-1):
        max_action = max(range(num_actions), key=lambda action: Q[(state, action)])
        improved_policy[state] = max_action


    return improved_policy

Politika yinelemesi

def policy_iteration():

    policy = {0:1, 1:2, 2:1, 3:1, 4:3, 5:1, 6:2, 7:3}

    while True:
        V = policy_evaluation(policy)
        improved_policy = policy_improvement(policy)


        if improved_policy == policy:
            break
        policy = improved_policy


    return policy, V

En iyi politika

policy, V = policy_iteration()
print(policy, V)

{0: 2, 1: 2, 2: 1, 
 3: 1, 4: 2, 5: 1, 
 6: 2, 7: 2} 

{0: 7, 1: 8, 2: 9, 
 3: 7, 4: 9, 5: 10, 
 6: 8, 7: 10, 8: 0}

Değer yinelemesi

Değerlendirme ve iyileştirmeyi tek adımda birleştirir
- En iyi durum-değer fonksiyonunu hesaplar
- Politikayı buradan türetir

İlk adım: durum değerleri V sıfırla başlatılır.

Değer yinelemesi

Değerlendirme ve iyileştirmeyi tek adımda birleştirir.
- En iyi durum-değer fonksiyonunu hesaplar
- Politikayı buradan türetir

V tablosu kullanılarak Q-değerlerinin hesaplandığı ek adım.

Değer yinelemesi

Değerlendirme ve iyileştirmeyi tek adımda birleştirir.
- En iyi durum-değer fonksiyonunu hesaplar
- Politikayı buradan türetir

Her durumda en iyi eylem seçilerek V’nin güncellendiği ek adım.

Değer yinelemesi

Değerlendirme ve iyileştirmeyi tek adımda birleştirir.
- En iyi durum-değer fonksiyonunu hesaplar
- Politikayı buradan türetir

V kullanılarak Q-değerleri hesaplama ve V’yi güncelleme süreci, V değişmeyene kadar tekrarlanır.

Değer yinelemesi

Değerlendirme ve iyileştirmeyi tek adımda birleştirir.
- En iyi durum-değer fonksiyonunu hesaplar
- Politikayı buradan türetir

Yineleme bittiğinde, en iyi politika ve V elde edilir.

Değer yinelemesini uygulama

V = {state: 0 for state in range(num_states)}
policy = {state:0 for state in range(num_states-1)}
threshold = 0.001


while True:
    new_V = {state: 0 for state in range(num_states)}

    for state in range(num_states-1): 
        max_action, max_q_value = get_max_action_and_value(state, V)

        new_V[state] = max_q_value
        policy[state] = max_action


    if all(abs(new_V[state] - V[state]) < thresh for state in V):
        break
    V = new_V

En iyi eylem ve değerleri bulma

def get_max_action_and_value(state, V):
    Q_values = [compute_q_value(state, action, V) for action in range(num_actions)]

    max_action = max(range(num_actions), key=lambda a: Q_values[a])

    max_q_value = Q_values[max_action]

    return max_action, max_q_value

Q-değerlerini hesaplama

def compute_q_value(state, action, V):
    if state == terminal_state:
        return None
    _, next_state, reward, _ = env.P[state][action][0]
    return reward + gamma * V[next_state]

En iyi politika

print(policy, V)

{0: 2, 1: 2, 2: 1, 
 3: 1, 4: 2, 5: 1, 
 6: 2, 7: 2} 

{0: 7, 1: 8, 2: 9, 
 3: 7, 4: 9, 5: 10, 
 6: 8, 7: 10, 8: 0}

En iyi politikanın durum değerleri.

Hadi pratik yapalım!

Python ile Gymnasium'da Reinforcement Learning