Ağacınızı nasıl büyütürsünüz

R ile Ağaç Tabanlı Modellerle Machine Learning

Sandro Raabe

Data Scientist

Diyabet veri seti

head(diabetes)
# A tibble: 6 x 9
  outcome pregnancies glucose blood_pressure skin_thickness insulin   bmi    age
  <fct>         <int>   <int>          <int>          <int>   <int> <dbl>  <int>
1 yes               6     148             72             35       0  33.6     50
2 no                1      85             66             29       0  26.6     31
3 yes               8     183             64              0       0  23.3     32
R ile Ağaç Tabanlı Modellerle Machine Learning

Tüm veri setini kullanmak

  • Tüm veriyi eğitimde kullandınız - modeli test etmek için veri kalmadı

model_flow_1

R ile Ağaç Tabanlı Modellerle Machine Learning

Veri bölme

veri bölme

model ve değerlendirme

R ile Ağaç Tabanlı Modellerle Machine Learning

Bölme yöntemleri

bölme yöntemleri

bölme_yöntemleri2

bölme_yöntemleri3

R ile Ağaç Tabanlı Modellerle Machine Learning

initial_split() fonksiyonu

  • Veriyi rastgele tek bir eğitim ve tek bir test sete böler
# Orantılı bölme (varsayılan: 0.75)
diabetes_split <- initial_split(diabetes, prop = 0.9)
diabetes_split
<Analysis/Assess/Total>
<692/76/768>
1 rsample paketinden
R ile Ağaç Tabanlı Modellerle Machine Learning

training() ve testing() fonksiyonları

  • Bir veri bölünmesinden eğitim ve test setlerini çıkarın
diabetes_train <- training(diabetes_split)

diabetes_test <- testing(diabetes_split)
  • Doğrulama:
    nrow(diabetes_train)/nrow(diabetes)
    
[1] 0.9007812
1 rsample'dan
R ile Ağaç Tabanlı Modellerle Machine Learning

Sınıf dengesizliklerinden kaçının

# Eğitim verisinde 'yes' ve 'no' sonuç sayıları
counts_train <- table(diabetes_train$outcome)
counts_train
 no yes 
490 86
# Eğitimde 'yes' oranı
prop_yes_train <- counts_train["yes"]/
                  sum(counts_train)
prop_yes_train
0.15
# Test verisinde 'yes' ve 'no' sonuç sayıları
counts_test <- table(diabetes_test$outcome)
counts_test
 no yes 
 28  48
# Testte 'yes' oranı
prop_yes_test <- counts_test["yes"]/
                  sum(counts_test)
prop_yes_test
0.63
R ile Ağaç Tabanlı Modellerle Machine Learning

Çözüm - benzer dağılımları zorlayın

initial_split(diabetes, 
              prop = 0.9, 
              strata = outcome)
  • outcome değişkeninin benzer dağılımıyla rastgele bölmeyi sağlar
R ile Ağaç Tabanlı Modellerle Machine Learning

Hadi bölelim!

R ile Ağaç Tabanlı Modellerle Machine Learning

Preparing Video For Download...