Selezionare in base ai valori mancanti

Riduzione della dimensionalità in R

Matt Pickard

Owner, Pickard Predictives, LLC

Calcolare il rapporto di valori mancanti

equazione del rapporto di valori mancanti

n <- nrow(credit_df)


missing_vals_df <- credit_df %>% 
  summarize(across(everything(), ~ sum(is.na(.)))) %>%

  pivot_longer(everything(), names_to = "feature", values_to = "num_missing_values") %>%

  mutate(missing_val_ratio = num_missing_values / n)

Output del rapporto di valori mancanti

missing_vals_df

# A tibble: 5 × 3
  feature          num_missing_values missing_val_ratio
  <chr>                         <int>             <dbl>
1 credit_score                      0             0    
2 annual_income                     0             0    
3 age                              84             0.613
4 outstanding_debt                129             0.942
5 num_of_loan                       0             0

Regole empiriche per la soglia del rapporto di mancanti

Nessuna soglia oggettiva
Dipende dall'importanza della feature
- Esempio: outstanding_debt vs. age

tabella di regole empiriche per la soglia del rapporto di valori mancanti

Crea il filtro sui valori mancanti

missing_vals_filter <- missing_vals_df %>% 
  filter(missing_val_ratio <= 0.5) %>%

  pull(feature)


missing_vals_filter

[1] "credit_score"  "annual_income" "num_of_loan"

Applica il filtro sui valori mancanti

filtered_credit_df <- credit_df %>% 
  select(missing_vals_filter)


filtered_credit_df %>% head(3)

# A tibble: 5 × 3
  credit_score annual_income num_of_loan
  <chr>                <dbl>       <dbl>
1 Standard            87630.           4
2 Standard            16574.           7
3 Standard            24931.           2

L'approccio tidymodels

Crea la ricetta

missing_vals_recipe <- 
  recipe(credit_score ~ ., data = credit_df) %>%

  step_filter_missing(all_predictors(), threshold = 0.5) %>% 

  prep()

Applica la ricetta

filtered_credit_df <- 
  bake(missing_vals_recipe, new_data = NULL)

Output della ricetta "cotta"

filtered_credit_df %>% head(5)

# A tibble: 5 × 3
  annual_income num_of_loan credit_score
          <dbl>       <dbl> <fct>       
1        87630.           4 Standard    
2        16574.           7 Standard    
3        24931.           2 Standard    
4       136680.           1 Good        
5        76850.           3 Standard

Passons à la pratique !

Riduzione della dimensionalità in R