L’ecosistema tidymodels

Modellazione con tidymodels in R

David Svancer

Data Scientist

Raccolta di pacchetti di machine learning

Il pacchetto tidymodels

Raccolta di pacchetti di machine learning

Campionamento dati con rsample

Raccolta di pacchetti di machine learning

Feature engineering con recipes

Raccolta di pacchetti di machine learning

Addestramento modelli con parnsip

Raccolta di pacchetti di machine learning

Tuning dei modelli con tune e dials

Raccolta di pacchetti di machine learning

Valutazione dei modelli con yardstick

Apprendimento supervisionato

Branca del machine learning che usa dati etichettati per addestrare modelli

Regressione

Predice esiti quantitativi
- Prezzo di vendita di una casa

Classificazione

Predice esiti categorici
- Se un dipendente lascerà l’azienda

left_company	miles_from_home	salary
no	1	84500
yes	10	64820
no	5	76490
yes	19	68540

Ruoli delle variabili in tidymodels

left_company è la variabile di risposta
miles_from_home e salary sono variabili predittori

Campionamento dei dati

Crea training e test set

Evita l’overfitting
Rapporto tipico: 75% training, 25% test

Dati di training

Feature engineering
Addestramento e tuning del modello

Dati di test

Stima le prestazioni su nuovi dati

Creazione di training e test set

Dati sull’efficienza del carburante

Dati sull’efficienza del carburante dell’Agenzia per la protezione ambientale USA

La variabile di risposta è hwy: efficienza in autostrada in miglia per gallone (mpg)

mpg

# A tibble: 234 x 11
     hwy   cty displ   cyl manufacturer model       year trans      drv   fl    class  
   <int> <int> <dbl> <int> <chr>        <chr>      <int> <chr>      <chr> <chr> <chr>  
 1    29    18   1.8     4 audi         a4          1999 auto(l5)   f     p     compact
 2    29    21   1.8     4 audi         a4          1999 manual(m5) f     p     compact
 3    31    20   2       4 audi         a4          2008 manual(m6) f     p     compact
 4    30    21   2       4 audi         a4          2008 auto(av)   f     p     compact
 5    26    16   2.8     6 audi         a4          1999 auto(l5)   f     p     compact
# ... with 224 more rows

Campionamento dati con tidymodels

initial_split()
- Definisce come creare training e test set
- prop indica la quota nel training
- strata stratifica per la variabile di risposta
Passa l’oggetto split a training()

Passa l’oggetto split a testing()

library(tidymodels)

mpg_split <- initial_split(mpg,
                           prop = 0.75,
                           strata = hwy)

mpg_training <- mpg_split %>%
  training()

mpg_test <- mpg_split %>%
  testing()

Dati sulle vendite di case

Vendite di case nell’area di Seattle (Washington) tra il 2015 e il 2016

home_sales

# A tibble: 1,492 x 8
   selling_price home_age bedrooms bathrooms sqft_living sqft_lot sqft_basement floors
           <dbl>    <dbl>    <dbl>     <dbl>       <dbl>    <dbl>         <dbl>  <dbl>
 1        487000       10        4      2.5         2540     5001             0      2
 2        465000       10        3      2.25        1530     1245           480      2
 3        411000       18        2      2           1130     1148           330      2
 4        635000        4        3      2.5         3350     4007           800      2
 5        380000       24        5      2.5         2130     8428             0      2
# ... with 1,482 more rows

A Facciamo pratica!

Modellazione con tidymodels in R