De modelworkflow automatiseren

Modelleren met tidymodels in R

David Svancer

Data Scientist

De workflow stroomlijnen

De functie last_fit()

  • Werkt ook met classificatiemodellen
  • Versnelt het modelleerproces
  • Past het model op trainingdata en voorspelt op de testset

 

Net als bij fit() begin je met:

  • Een datasplit-object maken met rsample
  • Een model specificeren met parsnip
leads_split <- initial_split(leads_df, 
                             strata = purchased)

logistic_model <- logistic_reg() %>% set_engine('glm') %>% set_mode('classification')
Modelleren met tidymodels in R

Model fitten en metrics verzamelen

De functie last_fit()

  • parsnip-modelobject
  • Modelformule
  • Datasplit-object

 

De functie collect_metrics() berekent metrics op de testset

  • Standaard: accuracy en ROC AUC
logistic_last_fit <- logistic_model %>% 
  last_fit(purchased ~ total_visits + total_time,
           split = leads_split)

logistic_last_fit %>% collect_metrics()

 

# A tibble: 2 x 3
  .metric  .estimator .estimate
  <chr>      <chr>       <dbl>
1 accuracy   binary      0.759
2 roc_auc    binary      0.763
Modelleren met tidymodels in R

Voorspellingen verzamelen

collect_predictions()

  • Maakt een tibble met alle kolommen voor yardstick-functies
  • Werkelijke en voorspelde uitkomsten met de testdata
  • Kanskolommen voor alle uitkomstcategorieën
last_fit_results <- logistic_last_fit %>% 
  collect_predictions()
last_fit_results
# A tibble: 332 x 6
   id             .pred_yes .pred_no .row .pred_class purchased
   <chr>            <dbl>    <dbl>   <int>   <fct>      <fct>
 1 train/test split  0.134    0.866     2      no        no
 2 train/test split  0.729    0.271    17      yes       yes
 3 train/test split  0.133    0.867    21      no        no
 4 train/test split  0.0916   0.908    22      no        no
 5 train/test split  0.598    0.402    24      yes       yes
# ... with 327 more rows
Modelleren met tidymodels in R

Aangepaste metric-sets

De functie metric_set()

  • accuracy(), sens() en spec()
    • Vereisen truth en estimate
  • roc_auc()
    • Vereist truth en een kolom met geschatte kansen

 

De functie custom_metrics() heeft alle drie nodig, met .pred_yes als laatste argument

custom_metrics <- metric_set(accuracy, sens,
                             spec, roc_auc)
custom_metrics(last_fit_results,
               truth = purchased,
               estimate = .pred_class,
               .pred_yes)
# A tibble: 4 x 3
  .metric  .estimator .estimate
  <chr>    <chr>          <dbl>
1 accuracy binary         0.759
2 sens     binary         0.617
3 spec     binary         0.840
4 roc_auc  binary         0.763
Modelleren met tidymodels in R

Laten we oefenen!

Modelleren met tidymodels in R

Preparing Video For Download...