Gradient boosting

Machine Learning con modelli ad albero in R

Sandro Raabe

Data Scientist

Ripasso: boosting

  • Usa weak learner (es. alberi con un solo split) che rendono poco meglio del caso
  • Somma questi weak learner e filtra le predizioni corrette
  • Gestisce a ogni passo le osservazioni ancora difficili

 

  • AdaBoost: primo algoritmo di boosting popolare
  • Gradient Boosting: miglioramento di AdaBoost
Machine Learning con modelli ad albero in R

Confronto

Adaboost
  • Usa decision stump come weak learner
  • Assegna pesi alle osservazioni:
    • Peso alto per osservazioni difficili
    • Peso basso per predizioni corrette
Gradient boosting
  • Usa piccoli alberi decisionali come weak learner
  • Loss function invece dei pesi
  • Ottimizza la loss con il gradient descent
Machine Learning con modelli ad albero in R

Pro e contro del boosting

 

Vantaggi

  • Tra i modelli di ML con performance migliori
  • Buona opzione per dati sbilanciati

 

Svantaggi

  • Incline a overfitting
  • Training può essere lento (dipende dall’iperparametro di learning rate)
  • Molti iperparametri da regolare
Machine Learning con modelli ad albero in R

Iperparametri per il gradient boosting

Già visti negli alberi decisionali semplici
  • min_n: numero minimo di punti nel nodo richiesto per dividere ancora
  • tree_depth: profondità massima dell’albero / numero di split
Già visti in random forest e bagged trees:
  • sample_size: quantità di dati usati dal fitting
  • trees: numero di alberi nell’ensemble
Machine Learning con modelli ad albero in R

Iperparametri per il gradient boosting

Già visti nei random forest:
  • mtry: numero di predittori campionati casualmente a ogni split
Specifici dei boosted trees:
  • learn_rate: velocità con cui l’algoritmo si adatta tra le iterazioni
  • loss_reduction: riduzione della loss richiesta per dividere ancora
  • stop_iter: numero di iterazioni senza miglioramenti prima di fermarsi
Machine Learning con modelli ad albero in R

Passiamo alla pratica!

Machine Learning con modelli ad albero in R

Preparing Video For Download...