Einführung in Deep Learning mit PyTorch
Jasmin Ludolf
Senior Data Science Content Developer, DataCamp
Optimierer für den Stochastic Gradient Descent (SGD)
sgd = optim.SGD(model.parameters(), lr=0.01, momentum=0.95)
Dies ist eine konvexe Funktion.
Dies ist eine nicht-konvexe Funktion.
lr = 0.01
momentum = 0
nach 100 Schritten das Minimum gefunden für x = -1.23
und y = -0.14
lr = 0.01
momentum = 0.9
nach 100 Schritten das Minimum gefunden für x = 0.92
und y = -2.04
$$
Lernrate | Momentum |
---|---|
Steuert die Schrittgröße | Steuert die Trägheit |
Zu hoch → schlechte Leistung | Hilft, dem lokalen Minimum zu entgehen |
Zu niedrig → langsames Training | Zu klein → Optimierer bleibt stecken |
Typischer Bereich: 0,01 ($10^{-2}$) und 0,0001 ($10^{-4}$) | Typischer Bereich: 0,85 bis 0,99 |
Einführung in Deep Learning mit PyTorch