Numerieke voorspellers

Modelleren met tidymodels in R

David Svancer

Data Scientist

Gecorreleerde voorspellers

Correlatie meet de sterkte van een lineair verband tussen twee numerieke variabelen

  • Loopt van -1 tot 1
  • Sterk gecorreleerde voorspellers rond -1 of 1

    • Leveren redundante informatie
    • Zorgen voor modelproblemen (multicollineariteit)

     

ggplot(leads_training,
       aes(x = pages_per_visit, y = total_clicks)) + 
  geom_point()  + 
  labs(title = 'Total Clicks vs Average Page Visits',
       y = 'Total Clicks', x = 'Average Pages per Visit')

Spreidingsdiagram van total clicks versus pages per visit in de lead scoring-data

Modelleren met tidymodels in R

Gecorreleerde voorspellers vinden

Bereken een correlatiematrix

  • Geef de dataset door aan select_if()
    • Gebruik is.numeric als argument
  • Geef door aan cor()
leads_training %>%

select_if(is.numeric) %>%
cor()
              total_visits total_time pages_per_visit total_clicks
total_visits        1.00       0.01            0.43         0.42
total_time          0.01       1.00            0.02         0.01
pages_per_visit     0.43       0.02            1.00         0.96
total_clicks        0.42       0.01            0.96         1.00
Modelleren met tidymodels in R

Gecorreleerde voorspellers verwerken

Multicollineariteit verwijderen met recipes

  • Maak een recipe-object met recipe()
  • Geef door aan step_corr()
    • Voeg alle numerieke kolommen toe
      • Kolomnamen gescheiden door komma's
    • Geef de correlatie-threshold op
      • Absoluutwaarde
      • Drempel 0,9 verwijdert correlaties ≥ 0,9 en ≤ -0,9
leads_cor_rec <- recipe(purchased ~ .,
                        data = leads_training) %>%

step_corr(total_visits, total_time, pages_per_visit, total_clicks, threshold = 0.9)
leads_cor_rec
Data Recipe
Inputs:
      role #variables
   outcome          1
 predictor          6

Operations:
Correlation filter on total_visits,..., total_clicks
Modelleren met tidymodels in R

Voorspellers selecteren op type

  • all_outcomes()
    • Selecteert de uitkomstvariabele
  • all_numeric()
    • Selecteert alle numerieke variabelen
      • Bevat de uitkomst als die numeriek is

Numerieke voorspellers kiezen voor recipe-stappen

  • Geef all_numeric() door aan step_*()-functies
  • Als de uitkomst numeriek is, ook -all_outcomes() doorgeven
leads_cor_rec <- recipe(purchased ~ .,
                        data = leads_training) %>%

step_corr(all_numeric(), threshold = 0.9)
leads_cor_rec
Data Recipe
Inputs:
      role #variables
   outcome          1
 predictor          6

Operations:
Correlation filter on all_numeric()
Modelleren met tidymodels in R

De recipe trainen en toepassen

  • Train met prep()
    • Gebruik leads_training voor training
  • Pas toe met bake()
    • pages_per_visit verwijderd uit leads_test
    • pages_per_visit wordt ook uit alle toekomstige data verwijderd
leads_cor_rec %>% 

prep(training = leads_training) %>%
bake(new_data = leads_test)
# A tibble: 332 x 6
total_visits total_time total_clicks ... purchased
    <dbl>       <dbl>        <dbl>   ...   <fct>
 1   8          100           24     ...    no
 2   4          1346          22     ...    yes
 3   3          176           27     ...    no
 4   2          16            12     ...    no
 5   9          1022          12     ...    yes
# ... with 327 more rows
Modelleren met tidymodels in R

Normalisatie

Centreren en schalen van numerieke variabelen

  • Trek het gemiddelde af
  • Deel door de standaardafwijking
  • Zet data om naar standaarddeviatie-eenheden
    • Getransformeerde variabele heeft gemiddelde 0 en standaardafwijking 1

De variabele total_time in leads_training

  • 1.273 seconden op de site is 1,19 standaardafwijkingen boven het gemiddelde

 

Voorbeeld van normaliseren van de variabele total time uit leads training

Modelleren met tidymodels in R

Datapreprocessingstappen combineren

Numerieke voorspellers normaliseren met recipes

  • step_normalize()
    • Kolomnamen of all_numeric()-selector
    • Gemiddelden en standaardafwijkingen uit trainingskolommen toegepast op nieuwe data

Meerdere step_*()-functies kun je aan een recipe toevoegen

  • Volgorde is belangrijk
leads_norm_rec <- recipe(purchased ~ .,
                         data = leads_training) %>%

step_corr(all_numeric(), threshold = 0.9) %>% step_normalize(all_numeric())
leads_norm_rec
Data Recipe
Inputs:
      role #variables
   outcome          1
 predictor          6

Operations:
Correlation filter on all_numeric()
Centering and scaling for all_numeric()
Modelleren met tidymodels in R

De testdata transformeren

pages_per_vist is verwijderd en numerieke voorspellers zijn genormaliseerd

leads_norm_rec %>% 
  prep(training = leads_training) %>% 
  bake(new_data = leads_test)
# A tibble: 332 x 6
 total_visits  total_time  total_clicks  lead_source   us_location  purchased
      <dbl>      <dbl>        <dbl>        <fct>          <fct>      <fct>    
 1    0.864     -0.984     -0.360        direct_traffic   west        no       
 2   -0.151      1.33      -0.506        direct_traffic   northeast   yes      
 3   -0.405     -0.843     -0.140        organic_search   west        no       
 4   -0.659     -1.14      -1.24         email            midwest     no       
 5    1.12       0.725     -1.24         direct_traffic   west        yes           
# ... with 327 more rows
Modelleren met tidymodels in R

Laten we oefenen!

Modelleren met tidymodels in R

Preparing Video For Download...