Introduction au deep learning avec PyTorch
Jasmin Ludolf
Senior Data Science Content Developer, DataCamp
Optimiseur de descente de gradient stochastique (SGD)
sgd = optim.SGD(model.parameters(), lr=0.01, momentum=0.95)
Il s’agit d’une fonction convexe.
Il s’agit d’une fonction non convexe.
lr = 0.01
momentum = 0
Après 100 étapes, le minimum est trouvé pour x = -1.23
et y = -0.14
lr = 0.01
momentum = 0.9
Après 100 étapes, le minimum est trouvé pour x = 0.92
et y = -2.04
$$
Taux d’apprentissage | Momentum |
---|---|
Contrôle la taille du pas | Contrôle l’inertie |
Trop élevé → mauvaise performance | Permet d’échapper au minimum local |
Trop faible → lenteur de l’entraînement | Trop petit → blocage de l’optimiseur |
Gamme typique : 0,01 ($10^{-2}$) and 0,0001 ($10^{-4}$) | Gamme typique : 0,85 à 0,99 |
Introduction au deep learning avec PyTorch