Pengantar Deep Learning dengan PyTorch
Jasmin Ludolf
Senior Data Science Content Developer, DataCamp
Optimizer Stochastic Gradient Descent (SGD)
sgd = optim.SGD(model.parameters(), lr=0.01, momentum=0.95)



Ini adalah fungsi cembung (convex).

Ini adalah fungsi tak cembung (non-convex).

lr = 0.01 momentum = 0, setelah 100 langkah minimum ditemukan pada x = -1.23 dan y = -0.14
lr = 0.01 momentum = 0.9, setelah 100 langkah minimum ditemukan pada x = 0.92 dan y = -2.04
$$
| Laju Belajar | Momentum |
|---|---|
| Mengatur besar langkah | Mengatur inersia |
| Terlalu tinggi → kinerja buruk | Membantu keluar dari minimum lokal |
| Terlalu rendah → pelatihan lambat | Terlalu kecil → optimizer macet |
| Rentang umum: 0.01 ($10^{-2}$) dan 0.0001 ($10^{-4}$) | Rentang umum: 0.85–0.99 |
Pengantar Deep Learning dengan PyTorch