Iterasi kebijakan dan iterasi nilai

Reinforcement Learning dengan Gymnasium di Python

Fouad Trad

Machine Learning Engineer

Iterasi kebijakan

Proses iteratif untuk menemukan kebijakan optimal

Gambar yang menampilkan langkah pertama, inisialisasi kebijakan.

Iterasi kebijakan

Proses iteratif untuk menemukan kebijakan optimal

Gambar yang menampilkan dua langkah: inisialisasi dan evaluasi kebijakan.

Iterasi kebijakan

Proses iteratif untuk menemukan kebijakan optimal

Gambar yang menampilkan tiga langkah: inisialisasi, evaluasi, dan perbaikan kebijakan.

Iterasi kebijakan

Proses iteratif untuk menemukan kebijakan optimal

Gambar yang menampilkan bahwa proses evaluasi dan perbaikan kebijakan berulang hingga kebijakan berhenti berubah.

Iterasi kebijakan

Proses iteratif untuk menemukan kebijakan optimal

Gambar yang menampilkan alur iterasi kebijakan: mulai dari inisialisasi kebijakan, lalu bergantian mengevaluasi dan memperbaiki kebijakan, hingga akhirnya mencapai kebijakan optimal.

Dunia kisi

policy = {
    0:1, 1:2, 2:1, 
    3:1, 4:3, 5:1,
    6:2, 7:3
}

Gambar yang menampilkan kebijakan dengan panah untuk setiap keadaan.

Evaluasi kebijakan

def policy_evaluation(policy):

    V = {state: compute_state_value(state, policy) for state in range(num_states)}

    return V

Perbaikan kebijakan

def policy_improvement(policy):

    improved_policy = {s: 0 for s in range(num_states-1)}

    Q = {(state, action): compute_q_value(state, action, policy)
      for state in range(num_states) for action in range(num_actions)}


    for state in range(num_states-1):
        max_action = max(range(num_actions), key=lambda action: Q[(state, action)])
        improved_policy[state] = max_action


    return improved_policy

Iterasi kebijakan

def policy_iteration():

    policy = {0:1, 1:2, 2:1, 3:1, 4:3, 5:1, 6:2, 7:3}

    while True:
        V = policy_evaluation(policy)
        improved_policy = policy_improvement(policy)


        if improved_policy == policy:
            break
        policy = improved_policy


    return policy, V

Kebijakan optimal

policy, V = policy_iteration()
print(policy, V)

{0: 2, 1: 2, 2: 1, 
 3: 1, 4: 2, 5: 1, 
 6: 2, 7: 2} 

{0: 7, 1: 8, 2: 9, 
 3: 7, 4: 9, 5: 10, 
 6: 8, 7: 10, 8: 0}

Iterasi nilai

Menggabungkan evaluasi dan perbaikan kebijakan dalam satu langkah
- Menghitung fungsi nilai-negara optimal
- Menurunkan kebijakan darinya

Gambar yang menampilkan langkah pertama, inisialisasi nilai-negara V dengan nol.

Iterasi nilai

Menggabungkan evaluasi dan perbaikan kebijakan dalam satu langkah.
- Menghitung fungsi nilai-negara optimal
- Menurunkan kebijakan darinya

Gambar yang menampilkan langkah tambahan menghitung nilai Q menggunakan tabel V.

Iterasi nilai

Menggabungkan evaluasi dan perbaikan kebijakan dalam satu langkah.
- Menghitung fungsi nilai-negara optimal
- Menurunkan kebijakan darinya

Gambar yang menampilkan langkah tambahan memperbarui V dengan memilih aksi terbaik di setiap keadaan.

Iterasi nilai

Menggabungkan evaluasi dan perbaikan kebijakan dalam satu langkah.
- Menghitung fungsi nilai-negara optimal
- Menurunkan kebijakan darinya

Gambar yang menampilkan proses menghitung nilai Q dari V dan memperbarui V diulangi hingga V berhenti berubah.

Iterasi nilai

Menggabungkan evaluasi dan perbaikan kebijakan dalam satu langkah.
- Menghitung fungsi nilai-negara optimal
- Menurunkan kebijakan darinya

Gambar yang menampilkan bahwa setelah proses iteratif selesai, kita mendapatkan kebijakan dan V yang optimal.

Mengimplementasikan iterasi nilai

V = {state: 0 for state in range(num_states)}
policy = {state:0 for state in range(num_states-1)}
threshold = 0.001


while True:
    new_V = {state: 0 for state in range(num_states)}

    for state in range(num_states-1): 
        max_action, max_q_value = get_max_action_and_value(state, V)

        new_V[state] = max_q_value
        policy[state] = max_action


    if all(abs(new_V[state] - V[state]) < thresh for state in V):
        break
    V = new_V

Mendapatkan aksi dan nilai optimal

def get_max_action_and_value(state, V):
    Q_values = [compute_q_value(state, action, V) for action in range(num_actions)]

    max_action = max(range(num_actions), key=lambda a: Q_values[a])

    max_q_value = Q_values[max_action]

    return max_action, max_q_value

Menghitung nilai Q

def compute_q_value(state, action, V):
    if state == terminal_state:
        return None
    _, next_state, reward, _ = env.P[state][action][0]
    return reward + gamma * V[next_state]

Kebijakan optimal

print(policy, V)

{0: 2, 1: 2, 2: 1, 
 3: 1, 4: 2, 5: 1, 
 6: 2, 7: 2} 

{0: 7, 1: 8, 2: 9, 
 3: 7, 4: 9, 5: 10, 
 6: 8, 7: 10, 8: 0}

Gambar yang menampilkan nilai-negara dari kebijakan optimal.

Ayo berlatih!

Reinforcement Learning dengan Gymnasium di Python