Politika yinelemesi ve değer yinelemesi

Python ile Gymnasium'da Reinforcement Learning

Fouad Trad

Machine Learning Engineer

Politika yinelemesi

  • En iyi politikayı bulmak için yinelemeli süreç

İlk adımın, politikanın başlatılmasının gösterimi.

Python ile Gymnasium'da Reinforcement Learning

Politika yinelemesi

  • En iyi politikayı bulmak için yinelemeli süreç

İki adım: politikayı başlatma ve değerlendirme.

Python ile Gymnasium'da Reinforcement Learning

Politika yinelemesi

  • En iyi politikayı bulmak için yinelemeli süreç

Üç adım: politikayı başlatma, değerlendirme ve iyileştirme.

Python ile Gymnasium'da Reinforcement Learning

Politika yinelemesi

  • En iyi politikayı bulmak için yinelemeli süreç

Politikayı değerlendirme ve iyileştirme sürecinin yinelemeli olduğu ve politika değişmeyene kadar tekrarlandığı gösterilir.

Python ile Gymnasium'da Reinforcement Learning

Politika yinelemesi

  • En iyi politikayı bulmak için yinelemeli süreç

Politika yinelemesinin akışı: bir politikayı başlatma; değerlendirme ve iyileştirme arasında dönüşümlü olarak ilerleme; sonunda en iyi politikaya ulaşma.

Python ile Gymnasium'da Reinforcement Learning

Izgara dünyası

policy = {
    0:1, 1:2, 2:1, 
    3:1, 4:3, 5:1,
    6:2, 7:3
}

Her durumda hareketi gösteren oklarla politika.

Python ile Gymnasium'da Reinforcement Learning

Politika değerlendirme

def policy_evaluation(policy):

V = {state: compute_state_value(state, policy) for state in range(num_states)}
return V
Python ile Gymnasium'da Reinforcement Learning

Politika iyileştirme

def policy_improvement(policy):

improved_policy = {s: 0 for s in range(num_states-1)}
Q = {(state, action): compute_q_value(state, action, policy) for state in range(num_states) for action in range(num_actions)}
for state in range(num_states-1): max_action = max(range(num_actions), key=lambda action: Q[(state, action)]) improved_policy[state] = max_action
return improved_policy
Python ile Gymnasium'da Reinforcement Learning

Politika yinelemesi

def policy_iteration():

policy = {0:1, 1:2, 2:1, 3:1, 4:3, 5:1, 6:2, 7:3}
while True: V = policy_evaluation(policy) improved_policy = policy_improvement(policy)
if improved_policy == policy: break policy = improved_policy
return policy, V
Python ile Gymnasium'da Reinforcement Learning

En iyi politika

policy, V = policy_iteration()
print(policy, V)
{0: 2, 1: 2, 2: 1, 
 3: 1, 4: 2, 5: 1, 
 6: 2, 7: 2} 

{0: 7, 1: 8, 2: 9, 
 3: 7, 4: 9, 5: 10, 
 6: 8, 7: 10, 8: 0}

optimal.png

Python ile Gymnasium'da Reinforcement Learning

Değer yinelemesi

  • Değerlendirme ve iyileştirmeyi tek adımda birleştirir
    • En iyi durum-değer fonksiyonunu hesaplar
    • Politikayı buradan türetir

İlk adım: durum değerleri V sıfırla başlatılır.

Python ile Gymnasium'da Reinforcement Learning

Değer yinelemesi

  • Değerlendirme ve iyileştirmeyi tek adımda birleştirir.
    • En iyi durum-değer fonksiyonunu hesaplar
    • Politikayı buradan türetir

V tablosu kullanılarak Q-değerlerinin hesaplandığı ek adım.

Python ile Gymnasium'da Reinforcement Learning

Değer yinelemesi

  • Değerlendirme ve iyileştirmeyi tek adımda birleştirir.
    • En iyi durum-değer fonksiyonunu hesaplar
    • Politikayı buradan türetir

Her durumda en iyi eylem seçilerek V’nin güncellendiği ek adım.

Python ile Gymnasium'da Reinforcement Learning

Değer yinelemesi

  • Değerlendirme ve iyileştirmeyi tek adımda birleştirir.
    • En iyi durum-değer fonksiyonunu hesaplar
    • Politikayı buradan türetir

V kullanılarak Q-değerleri hesaplama ve V’yi güncelleme süreci, V değişmeyene kadar tekrarlanır.

Python ile Gymnasium'da Reinforcement Learning

Değer yinelemesi

  • Değerlendirme ve iyileştirmeyi tek adımda birleştirir.
    • En iyi durum-değer fonksiyonunu hesaplar
    • Politikayı buradan türetir

Yineleme bittiğinde, en iyi politika ve V elde edilir.

Python ile Gymnasium'da Reinforcement Learning

Değer yinelemesini uygulama

V = {state: 0 for state in range(num_states)}
policy = {state:0 for state in range(num_states-1)}
threshold = 0.001

while True: new_V = {state: 0 for state in range(num_states)}
for state in range(num_states-1): max_action, max_q_value = get_max_action_and_value(state, V)
new_V[state] = max_q_value policy[state] = max_action
if all(abs(new_V[state] - V[state]) < thresh for state in V): break V = new_V
Python ile Gymnasium'da Reinforcement Learning

En iyi eylem ve değerleri bulma

def get_max_action_and_value(state, V):
    Q_values = [compute_q_value(state, action, V) for action in range(num_actions)]

max_action = max(range(num_actions), key=lambda a: Q_values[a])
max_q_value = Q_values[max_action]
return max_action, max_q_value
Python ile Gymnasium'da Reinforcement Learning

Q-değerlerini hesaplama

def compute_q_value(state, action, V):
    if state == terminal_state:
        return None
    _, next_state, reward, _ = env.P[state][action][0]
    return reward + gamma * V[next_state]
Python ile Gymnasium'da Reinforcement Learning

En iyi politika

print(policy, V)
{0: 2, 1: 2, 2: 1, 
 3: 1, 4: 2, 5: 1, 
 6: 2, 7: 2} 

{0: 7, 1: 8, 2: 9, 
 3: 7, 4: 9, 5: 10, 
 6: 8, 7: 10, 8: 0}

En iyi politikanın durum değerleri.

Python ile Gymnasium'da Reinforcement Learning

Hadi pratik yapalım!

Python ile Gymnasium'da Reinforcement Learning

Preparing Video For Download...