Modelli Random Forest

Riduzione della dimensionalità in R

Matt Pickard

Owner, Pickard Predictives, LLC

Random Forest

  • Un modello di ensemble
    • un approccio da "saggezza della folla"
  • Aggrega le previsioni di molti alberi casuali
  • Alberi non correlati riducono l'errore
  • Evita l'overfitting
  • Accurato
  • Esegue selezione delle feature

Diagramma di un modello di ensemble con più alberi decisionali e la combinazione dei loro voti in un voto finale.

Riduzione della dimensionalità in R

Random Forest

Questo diagramma mostra come si creano diversi sottoalberi usando sottoinsiemi di feature.

Riduzione della dimensionalità in R

Allena una Random Forest

library(tidymodels)

rf <- rand_forest(mode = "classification", trees = 200) %>% set_engine("ranger", importance = "impurity")
rf_fit <- rf %>% fit(credit_score ~ ., data = train)
predict_df <- test %>% bind_cols(predict = predict(rf_fit, test))
Riduzione della dimensionalità in R

Valuta il modello

f_meas(predict_df, credit_score, .pred_class)
0.6895
Riduzione della dimensionalità in R

Importanza variabili

library(vip)

rf_fit %>% vip()

Un grafico a barre dell'importanza delle variabili.

Riduzione della dimensionalità in R

Maschera delle feature

top_features <- rf_fit %>% 
  vi(rank = TRUE) %>% 
  filter(Importance <= 10) %>% 
  pull(Variable)

top_features
 [1] "outstanding_debt"        "interest_rate"          
 [3] "delay_from_due_date"     "changed_credit_limit"   
 [5] "credit_history_months"   "num_credit_card"        
 [7] "monthly_balance"         "num_of_delayed_payment" 
 [9] "annual_income"           "amount_invested_monthly"
Riduzione della dimensionalità in R

Riduci i dati

train_reduced <- train[top_features]
test_reduced <- test[top_features]
Riduzione della dimensionalità in R

Prestazioni

rf_fit <- rf %>% 
  fit(credit_score ~ ., data = train_reduced) 

predict_reduced_df <- test_reduced %>% bind_cols(predict = predict(rf_fit, test_reduced))
f_meas(predict_reduced_df, credit_score, .pred_class)
0.6738 

F-score del modello non ridotto:

0.6895 
Riduzione della dimensionalità in R

Passons à la pratique !

Riduzione della dimensionalità in R

Preparing Video For Download...