Pentingnya Reduksi Dimensi dalam Data dan Pembangunan Model

Reduksi Dimensi di R

Matt Pickard

Owner, Pickard Predictives, LLC

Kutukan Dimensi (Curse of Dimensionality)

  • kenaikan dimensi kecil memerlukan lonjakan eksponensial pada volume data
    • kekosongan data → bias dan overfitting

tabel dengan nilai gender dan veteran

Reduksi Dimensi di R

Kutukan Dimensi (Curse of Dimensionality)

  • tantangan pada data berdimensi tinggi
  • kenaikan dimensi kecil memerlukan lonjakan eksponensial pada volume data
    • kekosongan data → bias dan overfitting

tabel dengan nilai gender dan veteran

Reduksi Dimensi di R

Kutukan Dimensi (Curse of Dimensionality)

tabel dengan satu variabel golongan darah ditambahkan

Reduksi Dimensi di R

Kutukan Dimensi (Curse of Dimensionality)

tabel dengan satu variabel golongan darah ditambahkan

Reduksi Dimensi di R

Kekosongan (Sparsity)

semua kombinasi nilai variabel

Reduksi Dimensi di R

Kekosongan (Sparsity)

semua kombinasi nilai variabel dibandingkan dengan data nyata

Reduksi Dimensi di R

Kekosongan (Sparsity)

tidak semua kombinasi terkumpul dalam sampel dunia nyata

Reduksi Dimensi di R

Kekosongan: set latih dan uji

set latih dan uji harus mewakili setidaknya enam belas observasi

Reduksi Dimensi di R

Kekosongan: set latih dan uji

set latih dan uji harus mewakili setidaknya enam belas observasi

Reduksi Dimensi di R

Kekosongan: set latih dan uji

set latih dan uji harus mewakili keenam belas observasi masing-masing empat kali

Reduksi Dimensi di R

Kekosongan: set latih dan uji

set latih dan uji harus mewakili keenam belas observasi masing-masing empat kali

Reduksi Dimensi di R

Hitung jumlah minimum observasi

blood_type_df <- 
  expand_grid(
    gender = c("Female", "Male"),
    veteran = c("Yes", "No"),
    bloodtype = c("A", "B", "AB", "O")
)
# A tibble: 16 × 3
   gender veteran bloodtype
   <chr>  <chr>   <chr>    
 1 Female Yes     A        
 2 Female Yes     B        
 3 Female Yes     AB       
 4 Female Yes     O        
 5 Female No      A        
 6 Female No      B        
 7 Female No      AB       
 8 Female No      O        
 9 Male   Yes     A              
   ...    ...     ...
Reduksi Dimensi di R

Hitung jumlah minimum observasi

blood_type_df %>% 
  summarize(across(everything(), ~ length(unique(.)))) %>%

prod()
16

CATATAN: Itu jumlah untuk mewakili setiap kombinasi hanya sekali!

Reduksi Dimensi di R

Representasi ganda untuk tiap kombinasi

blood_type_df %>% 
  summarize(across(everything(), ~ length(unique(.))) %>% 
  prod() * 4  
128
Reduksi Dimensi di R

Ayo berlatih!

Reduksi Dimensi di R

Preparing Video For Download...