L’ecosistema tidymodels

Modellazione con tidymodels in R

David Svancer

Data Scientist

Raccolta di pacchetti di machine learning

Il pacchetto tidymodels

Modellazione con tidymodels in R

Raccolta di pacchetti di machine learning

Campionamento dati con rsample

Modellazione con tidymodels in R

Raccolta di pacchetti di machine learning

Feature engineering con recipes

Modellazione con tidymodels in R

Raccolta di pacchetti di machine learning

Addestramento modelli con parnsip

Modellazione con tidymodels in R

Raccolta di pacchetti di machine learning

Tuning dei modelli con tune e dials

Modellazione con tidymodels in R

Raccolta di pacchetti di machine learning

Valutazione dei modelli con yardstick

Modellazione con tidymodels in R

Apprendimento supervisionato

Branca del machine learning che usa dati etichettati per addestrare modelli

Regressione

  • Predice esiti quantitativi
    • Prezzo di vendita di una casa

 

Classificazione

  • Predice esiti categorici
    • Se un dipendente lascerà l’azienda
left_company miles_from_home salary
no 1 84500
yes 10 64820
no 5 76490
yes 19 68540

 

Ruoli delle variabili in tidymodels

  • left_company è la variabile di risposta
  • miles_from_home e salary sono variabili predittori
Modellazione con tidymodels in R

Campionamento dei dati

 

Crea training e test set

  • Evita l’overfitting
  • Rapporto tipico: 75% training, 25% test

Dati di training

  • Feature engineering
  • Addestramento e tuning del modello

Dati di test

  • Stima le prestazioni su nuovi dati

Creazione di training e test set

Modellazione con tidymodels in R

Dati sull’efficienza del carburante

Dati sull’efficienza del carburante dell’Agenzia per la protezione ambientale USA

  • La variabile di risposta è hwy: efficienza in autostrada in miglia per gallone (mpg)
mpg
# A tibble: 234 x 11
     hwy   cty displ   cyl manufacturer model       year trans      drv   fl    class  
   <int> <int> <dbl> <int> <chr>        <chr>      <int> <chr>      <chr> <chr> <chr>  
 1    29    18   1.8     4 audi         a4          1999 auto(l5)   f     p     compact
 2    29    21   1.8     4 audi         a4          1999 manual(m5) f     p     compact
 3    31    20   2       4 audi         a4          2008 manual(m6) f     p     compact
 4    30    21   2       4 audi         a4          2008 auto(av)   f     p     compact
 5    26    16   2.8     6 audi         a4          1999 auto(l5)   f     p     compact
# ... with 224 more rows
Modellazione con tidymodels in R

Campionamento dati con tidymodels

  • initial_split()

    • Definisce come creare training e test set
    • prop indica la quota nel training
    • strata stratifica per la variabile di risposta
  • Passa l’oggetto split a training()

 

  • Passa l’oggetto split a testing()
library(tidymodels)
mpg_split <- initial_split(mpg,
                           prop = 0.75,
                           strata = hwy)

 

mpg_training <- mpg_split %>%
  training()
mpg_test <- mpg_split %>%
  testing()
Modellazione con tidymodels in R

Dati sulle vendite di case

Vendite di case nell’area di Seattle (Washington) tra il 2015 e il 2016

home_sales
# A tibble: 1,492 x 8
   selling_price home_age bedrooms bathrooms sqft_living sqft_lot sqft_basement floors
           <dbl>    <dbl>    <dbl>     <dbl>       <dbl>    <dbl>         <dbl>  <dbl>
 1        487000       10        4      2.5         2540     5001             0      2
 2        465000       10        3      2.25        1530     1245           480      2
 3        411000       18        2      2           1130     1148           330      2
 4        635000        4        3      2.5         3350     4007           800      2
 5        380000       24        5      2.5         2130     8428             0      2
# ... with 1,482 more rows
Modellazione con tidymodels in R

A Facciamo pratica!

Modellazione con tidymodels in R

Preparing Video For Download...