Seleksi berdasarkan varians

Reduksi Dimensi di R

Matt Pickard

Owner, Pickard Predictives, LLC

Varians data tidak diskalakan

plot mean dengan batang galat simpangan baku untuk data kredit yang belum diskalakan

Reduksi Dimensi di R

Varians data diskalakan

plot mean dengan batang galat simpangan baku untuk data kredit yang telah diskalakan

Reduksi Dimensi di R

Hitung varians terstandar

credit_variances <- credit_df %>% 
  summarize(across(everything(), ~ var(scale(., center = FALSE)), na.rm = TRUE)) %>%

pivot_longer(everything(), names_to = "feature", values_to = "variance") %>%
arrange(desc(variance)) credit_variances
# A tibble: 17 × 2
   feature                  variance
   <chr>                       <dbl>
 1 num_of_loan               0.996  
 2 num_of_delayed_payment    0.986   
 ...
Reduksi Dimensi di R

Ambang varians

output varians

Reduksi Dimensi di R

Ambang varians

output varians yang menunjukkan ambang pertama yang mungkin

Reduksi Dimensi di R

Ambang varians

output varians yang menunjukkan ambang pertama yang mungkin

Reduksi Dimensi di R

Ambang varians

output varians yang menunjukkan ambang pertama yang mungkin

Reduksi Dimensi di R

Plot ambang varians

Plot ambang varians

Reduksi Dimensi di R

Buat filter varians

low_var_filter <- credit_variances %>% 
  filter(variance < 0.1) %>% 
  pull(feature)

low_var_filter
[1] "credit_history_months"    "age"                     
[3] "num_credit_inquiries"     "credit_utilization_ratio"
[5] "num_credit_card"   
Reduksi Dimensi di R

Pendekatan tidymodels

Buat recipe

low_variance_recipe <- recipe(credit_score ~ ., data = credit_df) %>%

step_zv(all_predictors()) %>%
step_scale(all_numeric_predictors()) %>%
step_nzv(all_predictors()) %>%
prep()

Terapkan recipe

filtered_credit_df <- bake(low_variance_recipe, new_data = NULL)
Reduksi Dimensi di R

Menyelidiki dampak langkah tertentu

low_variance_recipe <- recipe(credit_score ~ ., data = credit_df) %>% 
  step_zv(all_predictors()) %>% 
  step_scale(all_numeric_predictors()) %>% 
  step_nzv(all_predictors()) %>% 
  prep() 

tidy(low_variance_recipe, number = 3)
  terms                id       
  <chr>                <chr>    
1 num_credit_card      nzv_ni8L7
2 num_credit_inquiries nzv_ni8L7
Reduksi Dimensi di R

Ayo berlatih!

Reduksi Dimensi di R

Preparing Video For Download...