Gradient boosting

Machine Learning dengan Model Berbasis Pohon di R

Sandro Raabe

Data Scientist

Ulasan: boosting

  • Menggunakan weak learner (mis. decision tree dengan satu split) yang sedikit lebih baik dari tebakan acak
  • Menjumlahkan weak learner ini dan menyaring prediksi yang benar
  • Menangani observasi yang sulit pada tiap langkah

 

  • AdaBoost: algoritme boosting populer pertama
  • Gradient Boosting: penyempurnaan AdaBoost
Machine Learning dengan Model Berbasis Pohon di R

Perbandingan

Adaboost
  • Menggunakan decision stump sebagai weak learner
  • Memberi bobot pada observasi:
    • Bobot tinggi untuk observasi yang sulit
    • Bobot rendah untuk prediksi yang benar
Gradient boosting
  • Menggunakan decision tree kecil sebagai weak learner
  • Fungsi loss alih-alih bobot
  • Optimasi fungsi loss dengan gradient descent
Machine Learning dengan Model Berbasis Pohon di R

Pro & kontra boosting

 

Kelebihan

  • Termasuk model machine learning dengan kinerja terbaik
  • Pilihan baik untuk data tidak seimbang

 

Kekurangan

  • Rentan overfitting
  • Pelatihan bisa lambat (tergantung hyperparameter learning rate)
  • Banyak hyperparameter untuk dituning
Machine Learning dengan Model Berbasis Pohon di R

Hyperparameter untuk gradient boosting

Dikenal dari decision tree sederhana
  • min_n: jumlah minimum data dalam node yang diperlukan untuk di-split lagi
  • tree_depth: kedalaman maksimum pohon / jumlah split
Dikenal dari random forest dan bagged tree:
  • sample_size: jumlah data yang digunakan saat fitting
  • trees: jumlah pohon dalam ensemble
Machine Learning dengan Model Berbasis Pohon di R

Hyperparameter untuk gradient boosting

Dikenal dari random forest:
  • mtry: jumlah prediktor yang diambil acak di setiap split
Khusus untuk boosted tree:
  • learn_rate: laju adaptasi algoritme boosting di tiap iterasi
  • loss_reduction: penurunan loss yang diperlukan untuk split lebih lanjut
  • stop_iter: jumlah iterasi tanpa perbaikan sebelum berhenti
Machine Learning dengan Model Berbasis Pohon di R

Ayo berlatih!

Machine Learning dengan Model Berbasis Pohon di R

Preparing Video For Download...