Numerieke voorspellers

Modelleren met tidymodels in R

David Svancer

Data Scientist

Gecorreleerde voorspellers

Correlatie meet de sterkte van een lineair verband tussen twee numerieke variabelen

Loopt van -1 tot 1
Sterk gecorreleerde voorspellers rond -1 of 1
- Leveren redundante informatie
- Zorgen voor modelproblemen (multicollineariteit)

ggplot(leads_training,
       aes(x = pages_per_visit, y = total_clicks)) + 
  geom_point()  + 
  labs(title = 'Total Clicks vs Average Page Visits',
       y = 'Total Clicks', x = 'Average Pages per Visit')

Spreidingsdiagram van total clicks versus pages per visit in de lead scoring-data

Gecorreleerde voorspellers vinden

Bereken een correlatiematrix

Geef de dataset door aan select_if()
- Gebruik is.numeric als argument
Geef door aan cor()

leads_training %>%

  select_if(is.numeric) %>%

  cor()

              total_visits total_time pages_per_visit total_clicks
total_visits        1.00       0.01            0.43         0.42
total_time          0.01       1.00            0.02         0.01
pages_per_visit     0.43       0.02            1.00         0.96
total_clicks        0.42       0.01            0.96         1.00

Gecorreleerde voorspellers verwerken

Multicollineariteit verwijderen met recipes

Maak een recipe-object met recipe()
Geef door aan step_corr()
- Voeg alle numerieke kolommen toe
  - Kolomnamen gescheiden door komma's
- Geef de correlatie-threshold op
  - Absoluutwaarde
  - Drempel 0,9 verwijdert correlaties ≥ 0,9 en ≤ -0,9

leads_cor_rec <- recipe(purchased ~ .,
                        data = leads_training) %>%

  step_corr(total_visits, total_time,
            pages_per_visit, total_clicks,
            threshold = 0.9)


leads_cor_rec

Data Recipe
Inputs:
      role #variables
   outcome          1
 predictor          6

Operations:
Correlation filter on total_visits,..., total_clicks

Voorspellers selecteren op type

all_outcomes()
- Selecteert de uitkomstvariabele
all_numeric()
- Selecteert alle numerieke variabelen
  - Bevat de uitkomst als die numeriek is

Numerieke voorspellers kiezen voor recipe-stappen

Geef all_numeric() door aan step_*()-functies
Als de uitkomst numeriek is, ook -all_outcomes() doorgeven

leads_cor_rec <- recipe(purchased ~ .,
                        data = leads_training) %>%

  step_corr(all_numeric(), threshold = 0.9)


leads_cor_rec

Data Recipe
Inputs:
      role #variables
   outcome          1
 predictor          6

Operations:
Correlation filter on all_numeric()

De recipe trainen en toepassen

Train met prep()
- Gebruik leads_training voor training
Pas toe met bake()
- pages_per_visit verwijderd uit leads_test
- pages_per_visit wordt ook uit alle toekomstige data verwijderd

leads_cor_rec %>% 

  prep(training = leads_training) %>% 

  bake(new_data = leads_test)

# A tibble: 332 x 6
total_visits total_time total_clicks ... purchased
    <dbl>       <dbl>        <dbl>   ...   <fct>
 1   8          100           24     ...    no
 2   4          1346          22     ...    yes
 3   3          176           27     ...    no
 4   2          16            12     ...    no
 5   9          1022          12     ...    yes
# ... with 327 more rows

Normalisatie

Centreren en schalen van numerieke variabelen

Trek het gemiddelde af
Deel door de standaardafwijking
Zet data om naar standaarddeviatie-eenheden
- Getransformeerde variabele heeft gemiddelde 0 en standaardafwijking 1

De variabele total_time in leads_training

1.273 seconden op de site is 1,19 standaardafwijkingen boven het gemiddelde

Voorbeeld van normaliseren van de variabele total time uit leads training

Datapreprocessingstappen combineren

Numerieke voorspellers normaliseren met recipes

step_normalize()
- Kolomnamen of all_numeric()-selector
- Gemiddelden en standaardafwijkingen uit trainingskolommen toegepast op nieuwe data

Meerdere step_*()-functies kun je aan een recipe toevoegen

Volgorde is belangrijk

leads_norm_rec <- recipe(purchased ~ .,
                         data = leads_training) %>%

  step_corr(all_numeric(), threshold = 0.9) %>% 
  step_normalize(all_numeric())


leads_norm_rec

Data Recipe
Inputs:
      role #variables
   outcome          1
 predictor          6

Operations:
Correlation filter on all_numeric()
Centering and scaling for all_numeric()

De testdata transformeren

pages_per_vist is verwijderd en numerieke voorspellers zijn genormaliseerd

leads_norm_rec %>% 
  prep(training = leads_training) %>% 
  bake(new_data = leads_test)

# A tibble: 332 x 6
 total_visits  total_time  total_clicks  lead_source   us_location  purchased
      <dbl>      <dbl>        <dbl>        <fct>          <fct>      <fct>    
 1    0.864     -0.984     -0.360        direct_traffic   west        no       
 2   -0.151      1.33      -0.506        direct_traffic   northeast   yes      
 3   -0.405     -0.843     -0.140        organic_search   west        no       
 4   -0.659     -1.14      -1.24         email            midwest     no       
 5    1.12       0.725     -1.24         direct_traffic   west        yes           
# ... with 327 more rows

Laten we oefenen!

Modelleren met tidymodels in R