Importanza delle variabili

Feature Engineering in R

Jorge Zazueta

Research Professor. Head of the Modeling Group at the School of Economics, UASLP

Aggiungere più predittori

Un modello più completo include molte variabili.

lr_model <- logistic_reg()
lr_recipe <- 
  recipe(class~ sponsor_code +
         contract_value_band +
         category_code, 
         data = grants_train) %>%
  step_lencode_glm(sponsor_code,
                   contract_value_band,
                   category_code, 
                   outcome = vars(class))

Con risultati più convincenti.

lr_aug %>% class_evaluate(truth = class,
               estimate = .pred_class,
               .pred_successful)
# A tibble: 2 × 3
  .metric  .estimator .estimate
  <chr>    <chr>          <dbl>
1 accuracy binary         0.890
2 roc_auc  binary         0.951
Feature Engineering in R

Quali variabili contano di più?

Possiamo tracciare le feature ordinate per importanza con il pacchetto vip().

lr_fit %>%
  extract_fit_parsnip() %>%
  vip(aesthetics = 
      list(fill = "steelblue"))

Grafico dell'importanza delle variabili

Grafico a barre dell'importanza delle variabili.

Feature Engineering in R

Importanza delle variabili e feature engineering

L'importanza delle variabili è un potente feedback per affinare il feature engineering basato sulla conoscenza del dominio.

Flusso di lavoro: importanza variabili e feature engineering.

Feature Engineering in R

Passiamo alla pratica !

Feature Engineering in R

Preparing Video For Download...