Introdução ao Aprendizado Profundo com o PyTorch
Jasmin Ludolf
Senior Data Science Content Developer, DataCamp
**Otimizador de descida do gradiente estocástico (SGD)
sgd = optim.SGD(model.parameters(), lr=0.01, momentum=0.95)
Essa é uma função convexa.
Essa é uma função não convexa.
lr = 0.01
momentum = 0
, após 100 etapas o mínimo encontrado para x = -1.23
e y = -0.14
lr = 0.01
momentum = 0.9
, após 100 etapas o mínimo encontrado para x = 0.92
e y = -2.04
$$
Taxa de aprendizado | Momentum |
---|---|
Controla o tamanho da etapa | Controla a inércia |
Muito alto → desempenho ruim | Ajuda a escapar do mínimo local |
Muito baixo → treinamento lento | Muito pequeno → o otimizador fica preso |
Faixa típica: 0,01 ($10^{-2}$) e 0,0001 ($10^{-4}$) | Faixa típica: 0.85 a 0.99 |
Introdução ao Aprendizado Profundo com o PyTorch