Introductie tot Deep Learning met PyTorch
Jasmin Ludolf
Senior Data Science Content Developer, DataCamp
Stochastic Gradient Descent (SGD)-optimizer
sgd = optim.SGD(model.parameters(), lr=0.01, momentum=0.95)



Dit is een convexe functie.

Dit is een niet-convexe functie.

lr = 0.01 momentum = 0, na 100 stappen minimum gevonden bij x = -1.23 en y = -0.14
lr = 0.01 momentum = 0.9, na 100 stappen minimum gevonden bij x = 0.92 en y = -2.04
$$
| Learning rate | Momentum |
|---|---|
| Bepaalt de stapgrootte | Bepaalt de traagheid |
| Te hoog → slechte prestaties | Helpt lokale minima te ontwijken |
| Te laag → traag trainen | Te klein → optimizer blijft hangen |
| Typisch bereik: 0.01 ($10^{-2}$) en 0.0001 ($10^{-4}$) | Typisch bereik: 0.85–0.99 |
Introductie tot Deep Learning met PyTorch