Random forest-modellen

Dimensionality Reduction in R

Matt Pickard

Owner, Pickard Predictives, LLC

Random forest

  • Een ensemblemodel
    • een aanpak van "wijsheid van de massa"
  • Bundelt voorspellingen van veel willekeurige bomen
  • Willekeurige, niet-gecorreleerde bomen beperken fouten
  • Voorkomt overfitting
  • Accuraat
  • Voert featureselectie uit

Een diagram met een ensemble van meerdere beslisbomen en hoe hun stemmen tot één eindstem worden gecombineerd.

Dimensionality Reduction in R

Random forest

Dit diagram toont hoe verschillende subbomen worden gemaakt met verschillende subsets van features.

Dimensionality Reduction in R

Train een random forest

library(tidymodels)

rf <- rand_forest(mode = "classification", trees = 200) %>% set_engine("ranger", importance = "impurity")
rf_fit <- rf %>% fit(credit_score ~ ., data = train)
predict_df <- test %>% bind_cols(predict = predict(rf_fit, test))
Dimensionality Reduction in R

Model evalueren

f_meas(predict_df, credit_score, .pred_class)
0.6895
Dimensionality Reduction in R

Belang van variabelen

library(vip)

rf_fit %>% vip()

Een staafdiagram met variabelebelang.

Dimensionality Reduction in R

Featuremasker

top_features <- rf_fit %>% 
  vi(rank = TRUE) %>% 
  filter(Importance <= 10) %>% 
  pull(Variable)

top_features
 [1] "outstanding_debt"        "interest_rate"          
 [3] "delay_from_due_date"     "changed_credit_limit"   
 [5] "credit_history_months"   "num_credit_card"        
 [7] "monthly_balance"         "num_of_delayed_payment" 
 [9] "annual_income"           "amount_invested_monthly"
Dimensionality Reduction in R

Data reduceren

train_reduced <- train[top_features]
test_reduced <- test[top_features]
Dimensionality Reduction in R

Prestaties

rf_fit <- rf %>% 
  fit(credit_score ~ ., data = train_reduced) 

predict_reduced_df <- test_reduced %>% bind_cols(predict = predict(rf_fit, test_reduced))
f_meas(predict_reduced_df, credit_score, .pred_class)
0.6738 

F-score van het ongereduceerde model:

0.6895 
Dimensionality Reduction in R

Laten we oefenen!

Dimensionality Reduction in R

Preparing Video For Download...