Python ile Deep Reinforcement Learning
Timothée Carayol
Principal Machine Learning Engineer, Komment


$Q$’yu bilmek, en iyi politikayı sağlar: $$ \pi(s_t) = {\arg\max}_a Q(s_t, a) $$
Q-öğrenmenin amacı: zamanla $Q$’yu öğrenmek









class QNetwork(nn.Module):def __init__(self, state_size, action_size): super(QNetwork, self).__init__()self.fc1 = nn.Linear(state_size, 64) self.fc2 = nn.Linear(64, 64) self.fc3 = nn.Linear(64, action_size)def forward(self, state): x = torch.relu(self.fc1(torch.tensor(state))) x = torch.relu(self.fc2(x)) return self.fc3(x)q_network = QNetwork(8, 4)optimizer = optim.Adam(q_network.parameters(), lr=0.0001)
Çıktı boyutu olası eylem sayısına bağlıdır
Bu örnekte:
Python ile Deep Reinforcement Learning