Veri ve Model Kurmada Boyut Azaltmanın Önemi

R'de Boyutsal Azaltma

Matt Pickard

Owner, Pickard Predictives, LLC

Boyutsallığın Laneti

  • boyuttaki küçük bir artış, veri hacminde üstel artış gerektirir
    • veri seyreklği → yanlılık ve aşırı uyum

cinsiyet ve gazilik değerleri olan tablo

R'de Boyutsal Azaltma

Boyutsallığın Laneti

  • yüksek boyutlu verilerle ilgili sorunlar
  • boyuttaki küçük bir artış, veri hacminde üstel artış gerektirir
    • veri seyrekliği → yanlılık ve aşırı uyum

cinsiyet ve gazilik değerleri içeren tablo

R'de Boyutsal Azaltma

Boyutsallığın Laneti

kan grubu için ek bir değişken içeren tablo

R'de Boyutsal Azaltma

Boyutsallığın Laneti

kan grubu için ek bir değişken içeren tablo

R'de Boyutsal Azaltma

Seyreklik

değişken değerlerinin tüm kombinasyonları

R'de Boyutsal Azaltma

Seyreklik

değişken değerlerinin tüm kombinasyonları gerçek bir veri toplamayla karşılaştırıldı

R'de Boyutsal Azaltma

Seyreklik

gerçek dünyadaki örneklemde tüm kombinasyonlar toplanmadı

R'de Boyutsal Azaltma

Seyreklik: eğitim ve test setleri

eğitim ve test setlerinin en az on altı gözlemin tümünü temsil etmesi gerekir

R'de Boyutsal Azaltma

Seyreklik: eğitim ve test setleri

eğitim ve test setlerinin en az on altı gözlemin tümünü temsil etmesi gerekir

R'de Boyutsal Azaltma

Seyreklik: eğitim ve test setleri

eğitim ve test setlerinin on altı gözlemin her birini dört kez temsil etmesi gerekir

R'de Boyutsal Azaltma

Seyreklik: eğitim ve test setleri

eğitim ve test setlerinin on altı gözlemin her birini dört kez temsil etmesi gerekir

R'de Boyutsal Azaltma

Asgari gözlem sayısını hesaplayın

blood_type_df <- 
  expand_grid(
    gender = c("Female", "Male"),
    veteran = c("Yes", "No"),
    bloodtype = c("A", "B", "AB", "O")
)
# A tibble: 16 × 3
   gender veteran bloodtype
   <chr>  <chr>   <chr>    
 1 Female Yes     A        
 2 Female Yes     B        
 3 Female Yes     AB       
 4 Female Yes     O        
 5 Female No      A        
 6 Female No      B        
 7 Female No      AB       
 8 Female No      O        
 9 Male   Yes     A              
   ...    ...     ...
R'de Boyutsal Azaltma

Asgari gözlem sayısını hesaplayın

blood_type_df %>% 
  summarize(across(everything(), ~ length(unique(.)))) %>%

prod()
16

NOT: Bu, her kombinasyonu yalnızca bir kez temsil etmek için gereken sayıdır!

R'de Boyutsal Azaltma

Her kombinasyonun birden çok temsili

blood_type_df %>% 
  summarize(across(everything(), ~ length(unique(.))) %>% 
  prod() * 4  
128
R'de Boyutsal Azaltma

Ayo berlatih!

R'de Boyutsal Azaltma

Preparing Video For Download...