Cara mengembangkan pohon Anda

Machine Learning dengan Model Berbasis Pohon di R

Sandro Raabe

Data Scientist

Dataset diabetes

head(diabetes)

# A tibble: 6 x 9
  outcome pregnancies glucose blood_pressure skin_thickness insulin   bmi    age
  <fct>         <int>   <int>          <int>          <int>   <int> <dbl>  <int>
1 yes               6     148             72             35       0  33.6     50
2 no                1      85             66             29       0  26.6     31
3 yes               8     183             64              0       0  23.3     32

Menggunakan seluruh dataset

Menggunakan semua data untuk pelatihan — tidak ada data tersisa untuk menguji model

model_flow_1

Pemisahan data

pemisahan data

model dan evaluasi

Metode pemisahan

metode pemisahan

metode_pemisahan2

metode_pemisahan3

Fungsi initial_split()

Memisahkan data secara acak menjadi satu training set dan satu test set

# Split data secara proporsional (default: 0.75)
diabetes_split <- initial_split(diabetes, prop = 0.9)
diabetes_split

<Analysis/Assess/Total>
<692/76/768>

¹ dari paket rsample

Fungsi training() dan testing()

Ekstrak training set dan test set dari pemisahan data

diabetes_train <- training(diabetes_split)

diabetes_test  <- testing(diabetes_split)

Verifikasi:
```
nrow(diabetes_train)/nrow(diabetes)
```

[1] 0.9007812

¹ dari rsample

Hindari ketidakseimbangan kelas

# Jumlah keluaran 'yes' dan 'no' di data latih
counts_train <- table(diabetes_train$outcome)
counts_train

 no yes 
490 86

# Proporsi 'yes' di data latih
prop_yes_train <- counts_train["yes"]/
                  sum(counts_train)
prop_yes_train

0.15

# Jumlah keluaran 'yes' dan 'no' di data uji
counts_test <- table(diabetes_test$outcome)
counts_test

 no yes 
 28  48

# Proporsi 'yes' di data uji
prop_yes_test <- counts_test["yes"]/
                  sum(counts_test)
prop_yes_test

0.63

Solusi - paksa distribusi serupa

initial_split(diabetes, 
              prop = 0.9, 
              strata = outcome)

Menjamin split acak dengan distribusi variabel outcome yang serupa

Ayo bagi!

Machine Learning dengan Model Berbasis Pohon di R