Het tidymodels-ecosysteem

Modelleren met tidymodels in R

David Svancer

Data Scientist

Verzameling van machinelearning-pakketten

Het pakket tidymodels

Modelleren met tidymodels in R

Verzameling van machinelearning-pakketten

Data-resampling met rsample

Modelleren met tidymodels in R

Verzameling van machinelearning-pakketten

Feature engineering met recipes

Modelleren met tidymodels in R

Verzameling van machinelearning-pakketten

Model fitten met parnsip

Modelleren met tidymodels in R

Verzameling van machinelearning-pakketten

Modeltuning met tune en dials

Modelleren met tidymodels in R

Verzameling van machinelearning-pakketten

Modelbeoordeling met yardstick

Modelleren met tidymodels in R

Supervised machine learning

Tak van machine learning die gelabelde data gebruikt om een model te fitten

Regressie

  • Voorspellen van kwantitatieve uitkomsten
    • Verkoopprijs van een huis

 

Classificatie

  • Voorspellen van categorische uitkomsten
    • Of een medewerker het bedrijf verlaat
left_company miles_from_home salary
no 1 84500
yes 10 64820
no 5 76490
yes 19 68540

 

tidymodels variablerollen

  • left_company is een uitkomstvariabele
  • miles_from_home en salary zijn predictorvariabelen
Modelleren met tidymodels in R

Data-resampling

 

Maak trainings- en testsets

  • Voorkomt overfitting
  • Gebruikelijk: 75% training, 25% test

Trainingsdata

  • Feature engineering
  • Model fitten en tunen

Testdata

  • Schat modelprestatie op nieuwe data

Trainings- en testdatasets maken

Modelleren met tidymodels in R

Brandstofefficiëntiedata

Brandstofefficiëntiedata van de U.S. Environmental Protection Agency

  • Uitkomstvariabele is hwy – snelwegverbruik in miles per gallon (mpg)
mpg
# A tibble: 234 x 11
     hwy   cty displ   cyl manufacturer model       year trans      drv   fl    class  
   <int> <int> <dbl> <int> <chr>        <chr>      <int> <chr>      <chr> <chr> <chr>  
 1    29    18   1.8     4 audi         a4          1999 auto(l5)   f     p     compact
 2    29    21   1.8     4 audi         a4          1999 manual(m5) f     p     compact
 3    31    20   2       4 audi         a4          2008 manual(m6) f     p     compact
 4    30    21   2       4 audi         a4          2008 auto(av)   f     p     compact
 5    26    16   2.8     6 audi         a4          1999 auto(l5)   f     p     compact
# ... with 224 more rows
Modelleren met tidymodels in R

Data-resampling met tidymodels

  • initial_split()

    • Geeft instructies voor het maken van trainings- en testdatasets
    • prop geeft het aandeel voor training op
    • strata zorgt voor stratificatie naar de uitkomstvariabele
  • Geef het splitobject door aan de functie training()

 

  • Geef het splitobject door aan de functie testing()
library(tidymodels)
mpg_split <- initial_split(mpg,
                           prop = 0.75,
                           strata = hwy)

 

mpg_training <- mpg_split %>%
  training()
mpg_test <- mpg_split %>%
  testing()
Modelleren met tidymodels in R

Huizenverkoopdata

Huizenverkopen in de regio Seattle (Washington) tussen 2015 en 2016

home_sales
# A tibble: 1,492 x 8
   selling_price home_age bedrooms bathrooms sqft_living sqft_lot sqft_basement floors
           <dbl>    <dbl>    <dbl>     <dbl>       <dbl>    <dbl>         <dbl>  <dbl>
 1        487000       10        4      2.5         2540     5001             0      2
 2        465000       10        3      2.25        1530     1245           480      2
 3        411000       18        2      2           1130     1148           330      2
 4        635000        4        3      2.5         3350     4007           800      2
 5        380000       24        5      2.5         2130     8428             0      2
# ... with 1,482 more rows
Modelleren met tidymodels in R

Laten we oefenen!

Modelleren met tidymodels in R

Preparing Video For Download...