Taxa de aprendizado e momentum

Introdução ao Aprendizado Profundo com o PyTorch

Jasmin Ludolf

Senior Data Science Content Developer, DataCamp

Atualização de pesos com SGD

**Otimizador de descida do gradiente estocástico (SGD)

sgd = optim.SGD(model.parameters(), lr=0.01, momentum=0.95)

Dois argumentos:
- taxa de aprendizado: controla tamanho da etapa
- momentum: adiciona inércia para evitar ficar preso

um exemplo de taxa de aprendizado ideal

um exemplo de taxa de aprendizado pequena

um valor real da taxa de aprendizado

Essa é uma função convexa.

um exemplo de função convexa

Essa é uma função não convexa.

um exemplo de função não convexa

lr = 0.01 momentum = 0, após 100 etapas o mínimo encontrado para x = -1.23 e y = -0.14

um exemplo de otimizador preso em um mínimo local

lr = 0.01 momentum = 0.9, após 100 etapas o mínimo encontrado para x = 0.92 e y = -2.04

um exemplo de otimização com momentum

Taxa de aprendizado	Momentum
Controla o tamanho da etapa	Controla a inércia
Muito alto → desempenho ruim	Ajuda a escapar do mínimo local
Muito baixo → treinamento lento	Muito pequeno → o otimizador fica preso
Faixa típica: 0,01 ($10^{-2}$) e 0,0001 ($10^{-4}$)	Faixa típica: 0.85 a 0.99

Introdução ao Aprendizado Profundo com o PyTorch