Seleksi fitur vs. ekstraksi fitur

Reduksi Dimensi di R

Matt Pickard

Owner, Pickard Predictives, LLC

Pendekatan reduksi dimensi

Kebun sayur

  • Seleksi fitur seperti mencabut gulma
  • Ekstraksi fitur seperti membuat salad
1 Sumber gambar: Daderot, CC0, via Wikimedia Commons
Reduksi Dimensi di R

Seleksi fitur

Enam fitur dengan kode warna

Reduksi Dimensi di R

Seleksi fitur

Enam fitur dengan fitur berinformasi rendah difilter

Reduksi Dimensi di R

Seleksi fitur

Empat fitur yang telah difilter

Reduksi Dimensi di R

Contoh data kredit

credit_df %>% head(n=5)
  annual_income num_bank_accounts num_credit_card outstanding_debt credit_history_months
          <dbl>             <dbl>           <dbl>            <dbl>                 <dbl>
1        87630.                 2               5             526.                   286
2        16574.                 2               5              NA                    122
3        24931.                 2               5              NA                    351
4       136680.                 2               5              NA                    216
5        76850.                 2               5            1112.                   272
Reduksi Dimensi di R

Buat filter varians nol

na_filter <- credit_df %>% 
  summarize(across(everything(), ~ var(., na.rm = TRUE))) %>%

pivot_longer(everything(), names_to = "feature", values_to = "variance") %>%
filter(variance == 0) %>%
pull(feature)
na_filter
"num_bank_accounts" "num_credit_card"
Reduksi Dimensi di R

Buat filter nilai hilang

na_filter <- credit_df %>%  
  summarize(across(everything(), ~ sum(is.na(.)))) %>%

pivot_longer(everything(), names_to = "feature", values_to = "num_missing_values") %>%
filter(num_missing_values > 0) %>%
pull(feature)
na_filter
"outstanding_debt"
Reduksi Dimensi di R

Menerapkan filter gabungan

combined_filter <- 
  c(low_var_filter, na_filter)

credit_df %>% 
  select(-all_of(combined_filter)) %>% 
  head(3)
  annual_income credit_history_months
          <dbl>                 <dbl>
1        87630.                   286
2        16574.                   122
3        24931.                   351
Reduksi Dimensi di R

Ekstraksi fitur

Enam fitur dengan kode warna

Reduksi Dimensi di R

Ekstraksi fitur

Beberapa fitur digabung menjadi empat fitur

Reduksi Dimensi di R

Ekstraksi fitur dan informasi mutual

Diagram Venn dengan irisan

Reduksi Dimensi di R

Ekstraksi fitur: Menggabungkan info saling eksklusif

Fitur gabungan mencakup informasi mutual dan saling eksklusif

Reduksi Dimensi di R

Ekstraksi fitur: Menggabungkan info saling eksklusif

Fitur gabungan dengan informasi mutual dihapus

Reduksi Dimensi di R

Kelebihan dan kekurangan ekstraksi fitur

Kelebihan
  • dapat menggabungkan informasi menjadi fitur baru
Kekurangan
  • implementasi lebih rumit
  • fitur baru sulit diinterpretasi

Analisis komponen utama pada BMI, tinggi, dan berat badan

Reduksi Dimensi di R

Ayo berlatih!

Reduksi Dimensi di R

Preparing Video For Download...