Deep Reinforcement Learning in Python
Timothée Carayol
Principal Machine Learning Engineer, Komment
| Voorbeelden |
|---|
| Discontovoet |
| PPO: clipping-epsilon, entropiebonus |
| Experience replay: buffergrootte, batchgrootte |
| Afbouwschema epsilon-greediness |
| Fixed Q-targets: $\tau$ |
| Learning rate |
| Aantal lagen, nodes per laag... |
Doel: gemiddelde cumulatieve beloningen
Technieken voor hyperparameterzoektocht:


Optuna-werkwijze:
study aan
import optunadef objective(trial): ...study = optuna.create_study()study.optimize(objective, n_trials=100)
study.best_params
{'learning_rate': 0.001292481, 'batch_size': 8}
In de doelfunctie:
Volledige flexibiliteit voor hyperparameters:
def objective(trial: optuna.trial.Trial):# Hyperparameters x en y tussen -10 en 10x = trial.suggest_float('x', -10, 10) y = trial.suggest_float('y', -10, 10)# Retourneer de te minimaliseren metriek return (x - 2) ** 2 + 1.2 * (y + 3) ** 2
n_trials met de standaard sampler (TPE)n_trials ontbreekt: draait door tot je stopt
import sqlite study = optuna.create_study( storage="sqlite:///DRL.db", study_name="my_study")study.optimize(objective, n_trials=100)
loaded_study = optuna.load_study(
study_name="my_study",
storage="sqlite:///DRL.db")
optuna.visualization.plot_param_importances(study)

optuna.visualization.plot_contour(study)

Deep Reinforcement Learning in Python