Python ile Deep Reinforcement Learning
Timothée Carayol
Principal Machine Learning Engineer, Komment
| Örnekler |
|---|
| İskonto oranı |
| PPO: kırpma epsilonu, entropi bonusu |
| Deney tekrar kullanımı: arabellek boyutu, yığın boyutu |
| Azalan epsilon açgözlülük zamanlaması |
| Sabit Q-hedefleri: $\tau$ |
| Öğrenme oranı |
| Katman sayısı, katman başına düğüm... |
Amaç: ortalama kümülatif ödüller
Hiperparametre arama teknikleri:


Optuna iş akışı:
study başlatın
import optunadef objective(trial): ...study = optuna.create_study()study.optimize(objective, n_trials=100)
study.best_params
{'learning_rate': 0.001292481, 'batch_size': 8}
Amaç fonksiyonunda:
Hiperparametre tanımında tam esneklik sunar:
def objective(trial: optuna.trial.Trial):# Hyperparameters x and y between -10 and 10x = trial.suggest_float('x', -10, 10) y = trial.suggest_float('y', -10, 10)# Return the metric to minimize return (x - 2) ** 2 + 1.2 * (y + 3) ** 2
n_trials örnekleyinn_trials verilmezse: kesilene kadar çalışır
import sqlite study = optuna.create_study( storage="sqlite:///DRL.db", study_name="my_study")study.optimize(objective, n_trials=100)
loaded_study = optuna.load_study(
study_name="my_study",
storage="sqlite:///DRL.db")
optuna.visualization.plot_param_importances(study)

optuna.visualization.plot_contour(study)

Python ile Deep Reinforcement Learning