Het belang van dimensionaliteitsreductie voor data- en modelbouw

Dimensionality Reduction in R

Matt Pickard

Owner, Pickard Predictives, LLC

The curse of dimensionality

  • een kleine stijging in dimensionaliteit vraagt exponentieel meer data
    • dataschaarste → bias en overfitting

tabel met gender- en veteraanwaarden

Dimensionality Reduction in R

The curse of dimensionality

  • problemen met hoog-dimensionale data
  • een kleine stijging in dimensionaliteit vraagt exponentieel meer data
    • dataschaarste → bias en overfitting

tabel met gender- en veteraanwaarden

Dimensionality Reduction in R

The curse of dimensionality

een tabel met een extra variabele voor bloedgroep

Dimensionality Reduction in R

The curse of dimensionality

een tabel met een extra variabele voor bloedgroep

Dimensionality Reduction in R

Sparsity

alle combinaties van variabelewaarden

Dimensionality Reduction in R

Sparsity

alle combinaties van variabelewaarden vergeleken met een echte dataverzameling

Dimensionality Reduction in R

Sparsity

niet alle combinaties zijn verzameld in de steekproef uit de echte wereld

Dimensionality Reduction in R

Sparsity: train- en testsets

train- en testsets moeten alle minstens zestien observaties vertegenwoordigen

Dimensionality Reduction in R

Sparsity: train- en testsets

train- en testsets moeten alle minstens zestien observaties vertegenwoordigen

Dimensionality Reduction in R

Sparsity: train- en testsets

train- en testsets moeten alle zestien observaties vier keer vertegenwoordigen

Dimensionality Reduction in R

Sparsity: train- en testsets

train- en testsets moeten alle zestien observaties vier keer vertegenwoordigen

Dimensionality Reduction in R

Minimaal aantal observaties berekenen

blood_type_df <- 
  expand_grid(
    gender = c("Female", "Male"),
    veteran = c("Yes", "No"),
    bloodtype = c("A", "B", "AB", "O")
)
# A tibble: 16 × 3
   gender veteran bloodtype
   <chr>  <chr>   <chr>    
 1 Female Yes     A        
 2 Female Yes     B        
 3 Female Yes     AB       
 4 Female Yes     O        
 5 Female No      A        
 6 Female No      B        
 7 Female No      AB       
 8 Female No      O        
 9 Male   Yes     A              
   ...    ...     ...
Dimensionality Reduction in R

Minimaal aantal observaties berekenen

blood_type_df %>% 
  summarize(across(everything(), ~ length(unique(.)))) %>%

prod()
16

LET OP: Dat is het aantal om elke combinatie maar één keer te hebben!

Dimensionality Reduction in R

Meervoudige weergave van elke combinatie

blood_type_df %>% 
  summarize(across(everything(), ~ length(unique(.))) %>% 
  prod() * 4  
128
Dimensionality Reduction in R

Laten we oefenen!

Dimensionality Reduction in R

Preparing Video For Download...