Introdução ao Aprendizado Profundo com o PyTorch
Jasmin Ludolf
Senior Data Science Content Developer, DataCamp
**Otimizador de descida do gradiente estocástico (SGD)
sgd = optim.SGD(model.parameters(), lr=0.01, momentum=0.95)



Essa é uma função convexa.

Essa é uma função não convexa.

lr = 0.01 momentum = 0, após 100 etapas o mínimo encontrado para x = -1.23 e y = -0.14
lr = 0.01 momentum = 0.9, após 100 etapas o mínimo encontrado para x = 0.92 e y = -2.04
$$
| Taxa de aprendizado | Momentum |
|---|---|
| Controla o tamanho da etapa | Controla a inércia |
| Muito alto → desempenho ruim | Ajuda a escapar do mínimo local |
| Muito baixo → treinamento lento | Muito pequeno → o otimizador fica preso |
| Faixa típica: 0,01 ($10^{-2}$) e 0,0001 ($10^{-4}$) | Faixa típica: 0.85 a 0.99 |
Introdução ao Aprendizado Profundo com o PyTorch