Machine learning-workflows

Modelleren met tidymodels in R

David Svancer

Data Scientist

Classificatie met beslisbomen

Beslisbomen verdelen de predictorruimte in rechthoekige regio’s

Recursief binair splitsen

  • Algoritme dat de predictorruimte in niet-overlappende rechthoeken verdeelt

Spreidingsplot van lead scoring-data

Modelleren met tidymodels in R

Classificatie met beslisbomen

Beslisbomen verdelen de predictorruimte in rechthoekige regio’s

Recursief binair splitsen

  • Algoritme dat de predictorruimte in niet-overlappende rechthoeken verdeelt
  • Splitsingen worden iteratief toegevoegd
    • Horizontale of verticale snijpunten

Spreidingsplot met eerste splitsing van beslisboom

Modelleren met tidymodels in R

Classificatie met beslisbomen

Beslisbomen verdelen de predictorruimte in rechthoekige regio’s

Recursief binair splitsen

  • Algoritme dat de predictorruimte in niet-overlappende rechthoeken verdeelt
  • Splitsingen worden iteratief toegevoegd
    • Horizontale of verticale snijpunten

Spreidingsplot met tweede splitsing van beslisboom

Modelleren met tidymodels in R

Classificatie met beslisbomen

Beslisbomen verdelen de predictorruimte in rechthoekige regio’s

Recursief binair splitsen

  • Algoritme dat de predictorruimte in niet-overlappende rechthoeken verdeelt
  • Splitsingen worden iteratief toegevoegd
    • Horizontale of verticale snijpunten

Spreidingsplot met derde splitsing van beslisboom

Modelleren met tidymodels in R

Classificatie met beslisbomen

Beslisbomen verdelen de predictorruimte in rechthoekige regio’s

Recursief binair splitsen

  • Algoritme dat de predictorruimte in niet-overlappende rechthoeken verdeelt
  • Splitsingen worden iteratief toegevoegd
    • Horizontale of verticale snijpunten

 

Levert duidelijke rechthoekige regio’s op

  • Bij classificatie wordt de meerderheidsklasse voorspeld

Spreidingsplot met vier rechthoekige voorspellingsregio’s

Modelleren met tidymodels in R

Boomdiagrammen

  • Interne knopen
    • Splitsingen in de beslisboom (donkere vakken)
  • Terminale knopen
    • Regio’s die niet verder worden gesplitst
    • Groene en paarse vakken

Diagram van beslisboom

Interne knopen zijn stippellijnen en terminale knopen zijn gemarkeerde rechthoeken

Spreidingsplot met vier rechthoekige voorspellingsregio’s

Modelleren met tidymodels in R

Modelspecificatie

Modelspecificatie in parsnip

  • decision_tree()
    • Algemene interface voor beslisboommodellen in parsnip
    • Gangbare engine is 'rpart'
    • Mode is 'classification' of 'regression'
      • Voor lead scoring-data hebben we 'classification' nodig
dt_model <- decision_tree() %>% 

set_engine('rpart') %>%
set_mode('classification')
Modelleren met tidymodels in R

Feature-engineeringrecept

Datatransformaties voor lead scoring

  • Gecodeerd in een recipe-object
    • Multicollineariteit verwijderen
    • Numerieke predictoren normaliseren
    • Dummyvariabelen maken voor nominale predictoren

Twee R-objecten te beheren

  • parsnip-model en recipe-specificatie
  • Combineren in één object is makkelijker
leads_recipe <- recipe(purchased ~ .,
                       data = leads_training) %>%

step_corr(all_numeric(), threshold = 0.9) %>% step_normalize(all_numeric()) %>% step_dummy(all_nominal(), -all_outcomes())
leads_recipe
Data Recipe
Inputs:
      role #variables
   outcome          1
 predictor          6

Operations:
Correlation filter on all_numeric()
Centering and scaling for all_numeric()
Dummy variables from all_nominal(), -all_outcomes()
Modelleren met tidymodels in R

Modellen en recepten combineren

Het workflows-pakket stroomlijnt het modelproces

  • Combineert een parsnip-model en recipe tot één workflow-object

 

Gemaakt met de functie workflow()

  • Voeg model toe met add_model()
  • Voeg recipe toe met add_recipe()
    • Moet een specificatie zijn, geen getrainde recipe
leads_wkfl <- workflow() %>%

add_model(dt_model) %>%
add_recipe(leads_recipe)
leads_wkfl
== Workflow =====================
Preprocessor: Recipe
Model: decision_tree()
-- Preprocessor -----------------
3 Recipe Steps
* step_corr()
* step_normalize()
* step_dummy()
-- Model --------------------------
Decision Tree Model Specification (classification)
Computational engine: rpart
Modelleren met tidymodels in R

Model fitten met workflows

Een workflow trainen

  • Geef workflow aan last_fit() met de datasplit
  • Bekijk evaluatieresultaten met collect_metrics()

Achter de schermen

  • Train- en testsets gemaakt
  • recipe getraind en toegepast
  • Beslisboom getraind op trainingsdata
  • Voorspellingen en metrics op testdata
leads_wkfl_fit <- leads_wkfl %>% 
  last_fit(split = leads_split)

leads_wkfl_fit %>% collect_metrics()
# A tibble: 2 x 3
  .metric  .estimator .estimate
  <chr>    <chr>          <dbl>
1 accuracy binary         0.771
2 roc_auc  binary         0.775
Modelleren met tidymodels in R

Voorspellingen verzamelen

Een met last_fit() getrainde workflow kun je doorgeven aan collect_predictions()

  • Levert gedetailleerde resultaten op de testdata
  • Zoals eerder, te gebruiken met yardstick-functies voor eigen prestatiemetrics
leads_wkfl_preds <- leads_wkfl_fit %>% 
  collect_predictions()

leads_wkfl_preds
# A tibble: 332 x 6
   id          .pred_yes .pred_no  .row .pred_class purchased
  <chr>           <dbl>   <dbl>    <int>   <fct>       <fct>
train/test split  0.120    0.880     2      no          no
train/test split  0.755    0.245    17      yes         yes
train/test split  0.120    0.880    21      no          no
train/test split  0.120    0.880    22      no          no
train/test split  0.755    0.245    24      yes         yes
# ... with 327 more rows
Modelleren met tidymodels in R

Eigen metrics verkennen

Maak een aangepaste metricset met metric_set()

  • Oppervlakte onder de ROC-curve, sensitiviteit en specificiteit

 

Geef predictiedatasets door aan leads_metrics() om metrics te berekenen

leads_metrics <- metric_set(roc_auc, sens, spec)

leads_wkfl_preds %>% leads_metrics(truth = purchased, estimate = .pred_class, .pred_yes)
# A tibble: 3 x 3
  .metric .estimator .estimate
  <chr>   <chr>          <dbl>
1 sens    binary         0.75 
2 spec    binary         0.783
3 roc_auc binary         0.775
Modelleren met tidymodels in R

Dataset voor wanbetaling lening

Financiële data voor consumptieleningen bij een bank

  • Uitkomstvariabele is loan_default

 

loans_df
# A tibble: 872 x 8
loan_default  loan_purpose   missed_payment_2_yr loan_amount interest_rate installment annual_income debt_to_income
 <fct>           <fct>            <fct>             <int>        <dbl>         <dbl>         <dbl>       <dbl>
 no        debt_consolidation      no              25000         5.47          855.         62823        39.4 
 yes       medical                 no              10000        10.2           364.         40000        24.1 
 no        small_business          no              13000         6.22          442.         65000        14.0 
 no        small_business          no              36000         5.97         1152.        125000         8.09
 yes       small_business          yes             12000        11.8           308.         65000        20.1 
# ... with 867 more rows
Modelleren met tidymodels in R

Laten we workflows bouwen oefenen!

Modelleren met tidymodels in R

Preparing Video For Download...