Gradient boosting

Machine Learning dengan Model Berbasis Pohon di R

Sandro Raabe

Data Scientist

Ulasan: boosting

Menggunakan weak learner (mis. decision tree dengan satu split) yang sedikit lebih baik dari tebakan acak
Menjumlahkan weak learner ini dan menyaring prediksi yang benar
Menangani observasi yang sulit pada tiap langkah

AdaBoost: algoritme boosting populer pertama
Gradient Boosting: penyempurnaan AdaBoost

Perbandingan

Adaboost

Menggunakan decision stump sebagai weak learner
Memberi bobot pada observasi:
- Bobot tinggi untuk observasi yang sulit
- Bobot rendah untuk prediksi yang benar

Gradient boosting

Menggunakan decision tree kecil sebagai weak learner
Fungsi loss alih-alih bobot
Optimasi fungsi loss dengan gradient descent

Pro & kontra boosting

Kelebihan

Termasuk model machine learning dengan kinerja terbaik
Pilihan baik untuk data tidak seimbang

Kekurangan

Rentan overfitting
Pelatihan bisa lambat (tergantung hyperparameter learning rate)
Banyak hyperparameter untuk dituning

Hyperparameter untuk gradient boosting

Dikenal dari decision tree sederhana

min_n: jumlah minimum data dalam node yang diperlukan untuk di-split lagi
tree_depth: kedalaman maksimum pohon / jumlah split

Dikenal dari random forest dan bagged tree:

sample_size: jumlah data yang digunakan saat fitting
trees: jumlah pohon dalam ensemble

Hyperparameter untuk gradient boosting

Dikenal dari random forest:

mtry: jumlah prediktor yang diambil acak di setiap split

Khusus untuk boosted tree:

learn_rate: laju adaptasi algoritme boosting di tiap iterasi
loss_reduction: penurunan loss yang diperlukan untuk split lebih lanjut
stop_iter: jumlah iterasi tanpa perbaikan sebelum berhenti

Ayo berlatih!

Machine Learning dengan Model Berbasis Pohon di R

Preparing Video For Download...