Einführung in Deep Learning mit PyTorch
Jasmin Ludolf
Senior Data Science Content Developer, DataCamp
Optimierer für den Stochastic Gradient Descent (SGD)
sgd = optim.SGD(model.parameters(), lr=0.01, momentum=0.95)



Dies ist eine konvexe Funktion.

Dies ist eine nicht-konvexe Funktion.

lr = 0.01 momentum = 0nach 100 Schritten das Minimum gefunden für x = -1.23 und y = -0.14
lr = 0.01 momentum = 0.9nach 100 Schritten das Minimum gefunden für x = 0.92 und y = -2.04
$$
| Lernrate | Momentum |
|---|---|
| Steuert die Schrittgröße | Steuert die Trägheit |
| Zu hoch → schlechte Leistung | Hilft, dem lokalen Minimum zu entgehen |
| Zu niedrig → langsames Training | Zu klein → Optimierer bleibt stecken |
| Typischer Bereich: 0,01 ($10^{-2}$) und 0,0001 ($10^{-4}$) | Typischer Bereich: 0,85 bis 0,99 |
Einführung in Deep Learning mit PyTorch