L’importanza della riduzione della dimensionalità in dati e modelli

Riduzione della dimensionalità in R

Matt Pickard

Owner, Pickard Predictives, LLC

La maledizione della dimensionalità

  • piccoli aumenti di dimensionalità richiedono aumenti esponenziali dei dati
    • sparsità dei dati → bias e overfitting

tabella con genere e stato di veterano

Riduzione della dimensionalità in R

La maledizione della dimensionalità

  • problemi con dati ad alta dimensionalità
  • piccoli aumenti di dimensionalità richiedono aumenti esponenziali dei dati
    • sparsità dei dati → bias e overfitting

tabella con genere e stato di veterano

Riduzione della dimensionalità in R

La maledizione della dimensionalità

tabella con variabile aggiuntiva per il gruppo sanguigno

Riduzione della dimensionalità in R

La maledizione della dimensionalità

tabella con variabile aggiuntiva per il gruppo sanguigno

Riduzione della dimensionalità in R

Sparsità

tutte le combinazioni dei valori delle variabili

Riduzione della dimensionalità in R

Sparsità

tutte le combinazioni dei valori delle variabili rispetto a una raccolta reale di dati

Riduzione della dimensionalità in R

Sparsità

non tutte le combinazioni sono presenti nel campione reale

Riduzione della dimensionalità in R

Sparsità: train e test set

training e test devono rappresentare almeno tutte e sedici le osservazioni

Riduzione della dimensionalità in R

Sparsità: train e test set

training e test devono rappresentare almeno tutte e sedici le osservazioni

Riduzione della dimensionalità in R

Sparsità: train e test set

training e test devono rappresentare tutte e sedici le osservazioni quattro volte

Riduzione della dimensionalità in R

Sparsità: train e test set

training e test devono rappresentare tutte e sedici le osservazioni quattro volte

Riduzione della dimensionalità in R

Calcolare il numero minimo di osservazioni

blood_type_df <- 
  expand_grid(
    gender = c("Female", "Male"),
    veteran = c("Yes", "No"),
    bloodtype = c("A", "B", "AB", "O")
)
# A tibble: 16 × 3
   gender veteran bloodtype
   <chr>  <chr>   <chr>    
 1 Female Yes     A        
 2 Female Yes     B        
 3 Female Yes     AB       
 4 Female Yes     O        
 5 Female No      A        
 6 Female No      B        
 7 Female No      AB       
 8 Female No      O        
 9 Male   Yes     A              
   ...    ...     ...
Riduzione della dimensionalità in R

Calcolare il numero minimo di osservazioni

blood_type_df %>% 
  summarize(across(everything(), ~ length(unique(.)))) %>%

prod()
16

NOTA: è il numero per rappresentare ogni combinazione una sola volta!

Riduzione della dimensionalità in R

Rappresentazioni multiple per combinazione

blood_type_df %>% 
  summarize(across(everything(), ~ length(unique(.))) %>% 
  prod() * 4  
128
Riduzione della dimensionalità in R

Passiamo alla pratica !

Riduzione della dimensionalità in R

Preparing Video For Download...