Introducción al aprendizaje profundo con PyTorch
Jasmin Ludolf
Senior Data Science Content Developer, DataCamp
Optimizador de descenso de gradiente estocástico (SGD)
sgd = optim.SGD(model.parameters(), lr=0.01, momentum=0.95)



Se trata de una función convexa.

Se trata de una función no convexa.

lr = 0.01 momentum = 0después de 100 pasos se ha encontrado el mínimo para x = -1.23 y y = -0.14
lr = 0.01 momentum = 0.9después de 100 pasos se ha encontrado el mínimo para x = 0.92 y y = -2.04
$$
| Tasa de aprendizaje | Impulso |
|---|---|
| Controla el tamaño del paso | Controla la inercia |
| Demasiado alto → bajo rendimiento | Ayuda a escapar del mínimo local |
| Demasiado bajo → entrenamiento lento | Demasiado pequeño → el optimizador se atasca |
| Rango típico: 0.01 ($10^{-2}$) and 0.0001 ($10^{-4}$) | Rango típico: 0,85 a 0,99 |
Introducción al aprendizaje profundo con PyTorch