Introducción al aprendizaje profundo con PyTorch
Jasmin Ludolf
Senior Data Science Content Developer, DataCamp
Optimizador de descenso de gradiente estocástico (SGD)
sgd = optim.SGD(model.parameters(), lr=0.01, momentum=0.95)
Se trata de una función convexa.
Se trata de una función no convexa.
lr = 0.01
momentum = 0
después de 100 pasos se ha encontrado el mínimo para x = -1.23
y y = -0.14
lr = 0.01
momentum = 0.9
después de 100 pasos se ha encontrado el mínimo para x = 0.92
y y = -2.04
$$
Tasa de aprendizaje | Impulso |
---|---|
Controla el tamaño del paso | Controla la inercia |
Demasiado alto → bajo rendimiento | Ayuda a escapar del mínimo local |
Demasiado bajo → entrenamiento lento | Demasiado pequeño → el optimizador se atasca |
Rango típico: 0.01 ($10^{-2}$) and 0.0001 ($10^{-4}$) | Rango típico: 0,85 a 0,99 |
Introducción al aprendizaje profundo con PyTorch