Ekosistem tidymodels

Pemodelan dengan tidymodels di R

David Svancer

Data Scientist

Koleksi paket machine learning

Paket tidymodels

Pemodelan dengan tidymodels di R

Koleksi paket machine learning

Pengambilan sampel ulang dengan rsample

Pemodelan dengan tidymodels di R

Koleksi paket machine learning

Rekayasa fitur dengan recipes

Pemodelan dengan tidymodels di R

Koleksi paket machine learning

Pemasangan model dengan parnsip

Pemodelan dengan tidymodels di R

Koleksi paket machine learning

Penyetelan model dengan tune dan dials

Pemodelan dengan tidymodels di R

Koleksi paket machine learning

Evaluasi model dengan yardstick

Pemodelan dengan tidymodels di R

Supervised machine learning

Cabang machine learning yang memakai data berlabel untuk pemodelan

Regresi

  • Memprediksi hasil kuantitatif
    • Harga jual rumah

 

Klasifikasi

  • Memprediksi hasil kategorikal
    • Apakah karyawan akan keluar dari perusahaan
left_company miles_from_home salary
no 1 84500
yes 10 64820
no 5 76490
yes 19 68540

 

Peran variabel tidymodels

  • left_company adalah variabel keluaran
  • miles_from_home dan salary adalah variabel prediktor
Pemodelan dengan tidymodels di R

Pengambilan sampel ulang data

 

Buat data latih dan uji

  • Mencegah overfitting
  • Rasio umum 75% latih, 25% uji

Data latih

  • Rekayasa fitur
  • Pemasangan dan penyetelan model

Data uji

  • Perkirakan kinerja model pada data baru

Membuat dataset latih dan uji

Pemodelan dengan tidymodels di R

Data efisiensi bahan bakar

Data efisiensi bahan bakar kendaraan dari U.S. Environmental Protection Agency

  • Variabel keluaran adalah hwy - efisiensi di jalan tol dalam miles per gallon (mpg)
mpg
# A tibble: 234 x 11
     hwy   cty displ   cyl manufacturer model       year trans      drv   fl    class  
   <int> <int> <dbl> <int> <chr>        <chr>      <int> <chr>      <chr> <chr> <chr>  
 1    29    18   1.8     4 audi         a4          1999 auto(l5)   f     p     compact
 2    29    21   1.8     4 audi         a4          1999 manual(m5) f     p     compact
 3    31    20   2       4 audi         a4          2008 manual(m6) f     p     compact
 4    30    21   2       4 audi         a4          2008 auto(av)   f     p     compact
 5    26    16   2.8     6 audi         a4          1999 auto(l5)   f     p     compact
# ... with 224 more rows
Pemodelan dengan tidymodels di R

Pengambilan sampel ulang dengan tidymodels

  • initial_split()

    • Menentukan instruksi untuk membuat dataset latih dan uji
    • prop menentukan proporsi untuk data latih
    • strata melakukan stratifikasi menurut variabel keluaran
  • Teruskan objek split ke fungsi training()

 

  • Teruskan objek split ke fungsi testing()
library(tidymodels)
mpg_split <- initial_split(mpg,
                           prop = 0.75,
                           strata = hwy)

 

mpg_training <- mpg_split %>%
  training()
mpg_test <- mpg_split %>%
  testing()
Pemodelan dengan tidymodels di R

Data penjualan rumah

Penjualan rumah di area Seattle, Washington antara 2015–2016

home_sales
# A tibble: 1,492 x 8
   selling_price home_age bedrooms bathrooms sqft_living sqft_lot sqft_basement floors
           <dbl>    <dbl>    <dbl>     <dbl>       <dbl>    <dbl>         <dbl>  <dbl>
 1        487000       10        4      2.5         2540     5001             0      2
 2        465000       10        3      2.25        1530     1245           480      2
 3        411000       18        2      2           1130     1148           330      2
 4        635000        4        3      2.5         3350     4007           800      2
 5        380000       24        5      2.5         2130     8428             0      2
# ... with 1,482 more rows
Pemodelan dengan tidymodels di R

Ayo berlatih!

Pemodelan dengan tidymodels di R

Preparing Video For Download...