Learning rate en momentum

Introductie tot Deep Learning met PyTorch

Jasmin Ludolf

Senior Data Science Content Developer, DataCamp

Gewichten bijwerken met SGD

Stochastic Gradient Descent (SGD)-optimizer

sgd = optim.SGD(model.parameters(), lr=0.01, momentum=0.95)

Twee argumenten:
- learning rate: bepaalt de stapgrootte
- momentum: voegt traagheid toe om vastlopen te voorkomen

een voorbeeld van optimale learning rate

een voorbeeld van kleine learning rate

een te hoge waarde van de learning rate

Dit is een convexe functie.

een voorbeeld van convexe functie

Dit is een niet-convexe functie.

een voorbeeld van niet-convexe functie

lr = 0.01 momentum = 0, na 100 stappen minimum gevonden bij x = -1.23 en y = -0.14

een voorbeeld van een optimizer die vastzit in een lokaal minimum

lr = 0.01 momentum = 0.9, na 100 stappen minimum gevonden bij x = 0.92 en y = -2.04

een voorbeeld van optimalisatie met momentum

Learning rate	Momentum
Bepaalt de stapgrootte	Bepaalt de traagheid
Te hoog → slechte prestaties	Helpt lokale minima te ontwijken
Te laag → traag trainen	Te klein → optimizer blijft hangen
Typisch bereik: 0.01 ($10^{-2}$) en 0.0001 ($10^{-4}$)	Typisch bereik: 0.85–0.99

Introductie tot Deep Learning met PyTorch