Gebagde bomen

Machine Learning met boomgebaseerde modellen in R

Sandro Raabe

Data Scientist

Meer hoofden weten meer

de wijsheid van de massa

Machine Learning met boomgebaseerde modellen in R

Bootstrap & aggregatie

  • Bagging = afkorting van Bootstrap Aggregation

 

 1. Bootstrappen

  • Steekproeven met teruglegging → meerdere aangepaste trainingssets

 

 2. Aggregatie

  • Voorspellingen van verschillende modellen worden samengevoegd voor de eindvoorspelling:
    • Gemiddelde (bij regressie)
    • Meerderheidsstem (bij classificatie)
Machine Learning met boomgebaseerde modellen in R

Stap 1: Bootstrap en train

schema van bootstrappen

Machine Learning met boomgebaseerde modellen in R

Stap 2: Aggregeren

resultaten aggregeren

Machine Learning met boomgebaseerde modellen in R

Coderen: specificeer de gebagde bomen

library(baguette)
spec_bagged <- bag_tree() %>%

set_mode("classification") %>%
set_engine("rpart", times = 100)
Specificatie van gebagde beslissingsboom (classificatie)

Belangrijkste argumenten:
  cost_complexity = 0
  min_n = 2

Engine-specifieke argumenten:
  times = 100

Rekenengine: rpart
Machine Learning met boomgebaseerde modellen in R

Train alle bomen

model_bagged <- fit(spec_bagged, formula = still_customer ~ ., data = customers_train)
parsnip model object

Fit time:  23.9s

Gebagde CART (classificatie met 100 leden)
Belangrijkheid van variabelen bevat o.a.: # A tibble: 19 x 4 term value std.error used <chr> <dbl> <dbl> <int> 1 total_trans_ct 876. 3.93 100 2 total_trans_amt 800. 4.54 100 3 total_revolving_bal 491. 3.67 100
Machine Learning met boomgebaseerde modellen in R

Laten we bootstrappen!

Machine Learning met boomgebaseerde modellen in R

Preparing Video For Download...