Selamat datang di kursus!

Machine Learning dengan Model Berbasis Pohon di R

Sandro Raabe

Data Scientist

Gambaran kursus

 

  • Bab 1: Pohon klasifikasi
  • Bab 2: Pohon regresi, validasi silang, bias–varian
  • Bab 3: Penyetelan hiperparameter, bagging, random forest
  • Bab 4: Pohon boosting
Machine Learning dengan Model Berbasis Pohon di R

Pohon keputusan adalah bagan alir

bagan alir hewan

1 https://aca.edu.au/resources/decision-trees-classifying-animals/decision-trees.pdf
Machine Learning dengan Model Berbasis Pohon di R

Kelebihan model berbasis pohon

  • Mudah dijelaskan dan dipahami
  • Dapat menangkap hubungan nonlinier
  • Tidak butuh normalisasi atau standardisasi fitur numerik
  • Tak perlu membuat variabel indikator dummy
  • Tahan terhadap outlier
  • Cepat untuk data besar
Machine Learning dengan Model Berbasis Pohon di R

Kekurangan model berbasis pohon

  • Sulit ditafsirkan jika besar, dalam, atau di-ensemble
  • Varian tinggi; pohon kompleks rentan overfitting
Machine Learning dengan Model Berbasis Pohon di R

cuplikan layar tidymodels

Machine Learning dengan Model Berbasis Pohon di R

Paket tidymodels

library(tidymodels)
-- Attaching packages -------------------- tidymodels 0.1.4 --
v parsnip   0.2.1      v rsample   0.1.1 
v dplyr     1.0.9      v tibble    3.1.7 
v yardstick 0.0.9      v tune      0.1.6
Machine Learning dengan Model Berbasis Pohon di R

Buat pohon keputusan

Spesifikasi / desain fungsional

 1. Pilih kelas model

library(tidymodels)

decision_tree()
Decision Tree Model Specification (unknown)
Machine Learning dengan Model Berbasis Pohon di R

Buat pohon keputusan

 2. Atur engine yang menjalankan model

library(tidymodels)

decision_tree() %>% 
    set_engine("rpart")
Decision Tree Model Specification (unknown)

Computational engine: rpart
Machine Learning dengan Model Berbasis Pohon di R

Buat pohon keputusan

 3. Atur mode (klasifikasi atau regresi)

library(tidymodels)

decision_tree() %>% 
     set_engine("rpart") %>% 
     set_mode("classification")
Decision Tree Model Specification (classification)

Computational engine: rpart
Machine Learning dengan Model Berbasis Pohon di R

Dari spesifikasi ke model nyata

Spesifikasi adalah kerangka; perlu data untuk dilatih
library(tidymodels)
tree_spec <- decision_tree() %>% 
               set_engine("rpart") %>% 
               set_mode("classification")
# Spesifikasi model di-fit dengan formula pada data latih
tree_spec %>%           
  fit(formula = outcome ~ age + bmi,  
      data = diabetes)
parsnip model object
Fit time: 19 ms 
n = 652
Machine Learning dengan Model Berbasis Pohon di R

Ayo membangun model!

Machine Learning dengan Model Berbasis Pohon di R

Preparing Video For Download...