Gradient boosting

Machine Learning con modelli ad albero in R

Sandro Raabe

Data Scientist

Ripasso: boosting

Usa weak learner (es. alberi con un solo split) che rendono poco meglio del caso
Somma questi weak learner e filtra le predizioni corrette
Gestisce a ogni passo le osservazioni ancora difficili

AdaBoost: primo algoritmo di boosting popolare
Gradient Boosting: miglioramento di AdaBoost

Confronto

Adaboost

Usa decision stump come weak learner
Assegna pesi alle osservazioni:
- Peso alto per osservazioni difficili
- Peso basso per predizioni corrette

Gradient boosting

Usa piccoli alberi decisionali come weak learner
Loss function invece dei pesi
Ottimizza la loss con il gradient descent

Pro e contro del boosting

Vantaggi

Tra i modelli di ML con performance migliori
Buona opzione per dati sbilanciati

Svantaggi

Incline a overfitting
Training può essere lento (dipende dall’iperparametro di learning rate)
Molti iperparametri da regolare

Iperparametri per il gradient boosting

Già visti negli alberi decisionali semplici

min_n: numero minimo di punti nel nodo richiesto per dividere ancora
tree_depth: profondità massima dell’albero / numero di split

Già visti in random forest e bagged trees:

sample_size: quantità di dati usati dal fitting
trees: numero di alberi nell’ensemble

Iperparametri per il gradient boosting

Già visti nei random forest:

mtry: numero di predittori campionati casualmente a ogni split

Specifici dei boosted trees:

learn_rate: velocità con cui l’algoritmo si adatta tra le iterazioni
loss_reduction: riduzione della loss richiesta per dividere ancora
stop_iter: numero di iterazioni senza miglioramenti prima di fermarsi

Passiamo alla pratica!

Machine Learning con modelli ad albero in R

Preparing Video For Download...