Selezione vs. estrazione di feature

Riduzione della dimensionalità in R

Matt Pickard

Owner, Pickard Predictives, LLC

Approcci alla riduzione della dimensionalità

Orto

  • Selezione delle feature come togliere le erbacce
  • Estrazione delle feature come preparare un’insalata
1 Fonte immagine: Daderot, CC0, via Wikimedia Commons
Riduzione della dimensionalità in R

Selezione delle feature

Un set di sei feature codificate a colori

Riduzione della dimensionalità in R

Selezione delle feature

Sei feature con quelle a bassa informazione filtrate

Riduzione della dimensionalità in R

Selezione delle feature

Un set filtrato di quattro feature

Riduzione della dimensionalità in R

Esempio di dati creditizi

credit_df %>% head(n=5)
  annual_income num_bank_accounts num_credit_card outstanding_debt credit_history_months
          <dbl>             <dbl>           <dbl>            <dbl>                 <dbl>
1        87630.                 2               5             526.                   286
2        16574.                 2               5              NA                    122
3        24931.                 2               5              NA                    351
4       136680.                 2               5              NA                    216
5        76850.                 2               5            1112.                   272
Riduzione della dimensionalità in R

Crea un filtro a varianza zero

na_filter <- credit_df %>% 
  summarize(across(everything(), ~ var(., na.rm = TRUE))) %>%

pivot_longer(everything(), names_to = "feature", values_to = "variance") %>%
filter(variance == 0) %>%
pull(feature)
na_filter
"num_bank_accounts" "num_credit_card"
Riduzione della dimensionalità in R

Crea un filtro per valori mancanti

na_filter <- credit_df %>%  
  summarize(across(everything(), ~ sum(is.na(.)))) %>%

pivot_longer(everything(), names_to = "feature", values_to = "num_missing_values") %>%
filter(num_missing_values > 0) %>%
pull(feature)
na_filter
"outstanding_debt"
Riduzione della dimensionalità in R

Applicare il filtro combinato

combined_filter <- 
  c(low_var_filter, na_filter)

credit_df %>% 
  select(-all_of(combined_filter)) %>% 
  head(3)
  annual_income credit_history_months
          <dbl>                 <dbl>
1        87630.                   286
2        16574.                   122
3        24931.                   351
Riduzione della dimensionalità in R

Estrazione delle feature

Un set di sei feature codificate a colori

Riduzione della dimensionalità in R

Estrazione delle feature

Alcune feature combinate in quattro feature

Riduzione della dimensionalità in R

Estrazione delle feature e informazione reciproca

Diagramma di Venn con intersezione

Riduzione della dimensionalità in R

Estrazione: combinare info mutuamente esclusive

Feature combinate: informazione condivisa e informazione mutuamente esclusiva

Riduzione della dimensionalità in R

Estrazione: combinare info mutuamente esclusive

Feature combinate con informazione reciproca rimossa

Riduzione della dimensionalità in R

Pro e contro dell’estrazione delle feature

Vantaggi
  • può combinare informazioni in nuove feature
Svantaggi
  • implementazione più complessa
  • nuove feature difficili da interpretare

Analisi delle componenti principali di BMI, altezza e peso

Riduzione della dimensionalità in R

Passons à la pratique !

Riduzione della dimensionalità in R

Preparing Video For Download...