Selezione in base alla varianza

Riduzione della dimensionalità in R

Matt Pickard

Owner, Pickard Predictives, LLC

Varianza dei dati non scalati

grafico delle medie con barre di errore (deviazione standard) per i dati di credito non scalati

Riduzione della dimensionalità in R

Varianza dei dati scalati

grafico delle medie con barre di errore (deviazione standard) per i dati di credito scalati

Riduzione della dimensionalità in R

Calcolare le varianze scalate

credit_variances <- credit_df %>% 
  summarize(across(everything(), ~ var(scale(., center = FALSE)), na.rm = TRUE)) %>%

pivot_longer(everything(), names_to = "feature", values_to = "variance") %>%
arrange(desc(variance)) credit_variances
# A tibble: 17 × 2
   feature                  variance
   <chr>                       <dbl>
 1 num_of_loan               0.996  
 2 num_of_delayed_payment    0.986   
 ...
Riduzione della dimensionalità in R

Soglia di varianza

output delle varianze

Riduzione della dimensionalità in R

Soglia di varianza

output delle varianze che mostra il primo possibile cutoff

Riduzione della dimensionalità in R

Soglia di varianza

output delle varianze che mostra il primo possibile cutoff

Riduzione della dimensionalità in R

Soglia di varianza

output delle varianze che mostra il primo possibile cutoff

Riduzione della dimensionalità in R

Grafico soglia di varianza

Grafico soglia di varianza

Riduzione della dimensionalità in R

Crea un filtro per varianza

low_var_filter <- credit_variances %>% 
  filter(variance < 0.1) %>% 
  pull(feature)

low_var_filter
[1] "credit_history_months"    "age"                     
[3] "num_credit_inquiries"     "credit_utilization_ratio"
[5] "num_credit_card"   
Riduzione della dimensionalità in R

Approccio tidymodels

Crea la ricetta

low_variance_recipe <- recipe(credit_score ~ ., data = credit_df) %>%

step_zv(all_predictors()) %>%
step_scale(all_numeric_predictors()) %>%
step_nzv(all_predictors()) %>%
prep()

Applica la ricetta

filtered_credit_df <- bake(low_variance_recipe, new_data = NULL)
Riduzione della dimensionalità in R

Analizzare l’effetto di uno step specifico

low_variance_recipe <- recipe(credit_score ~ ., data = credit_df) %>% 
  step_zv(all_predictors()) %>% 
  step_scale(all_numeric_predictors()) %>% 
  step_nzv(all_predictors()) %>% 
  prep() 

tidy(low_variance_recipe, number = 3)
  terms                id       
  <chr>                <chr>    
1 num_credit_card      nzv_ni8L7
2 num_credit_inquiries nzv_ni8L7
Riduzione della dimensionalità in R

Passons à la pratique !

Riduzione della dimensionalità in R

Preparing Video For Download...