Introduction au deep learning avec PyTorch
Jasmin Ludolf
Senior Data Science Content Developer, DataCamp
Optimiseur de descente de gradient stochastique (SGD)
sgd = optim.SGD(model.parameters(), lr=0.01, momentum=0.95)



Il s’agit d’une fonction convexe.

Il s’agit d’une fonction non convexe.

lr = 0.01 momentum = 0Après 100 étapes, le minimum est trouvé pour x = -1.23 et y = -0.14
lr = 0.01 momentum = 0.9Après 100 étapes, le minimum est trouvé pour x = 0.92 et y = -2.04
$$
| Taux d’apprentissage | Momentum |
|---|---|
| Contrôle la taille du pas | Contrôle l’inertie |
| Trop élevé → mauvaise performance | Permet d’échapper au minimum local |
| Trop faible → lenteur de l’entraînement | Trop petit → blocage de l’optimiseur |
| Gamme typique : 0,01 ($10^{-2}$) and 0,0001 ($10^{-4}$) | Gamme typique : 0,85 à 0,99 |
Introduction au deep learning avec PyTorch