Nominale voorspellers

Modelleren met tidymodels in R

David Svancer

Data Scientist

Nominale data

Data die kenmerken of groepen encodeert

  • Geen betekenisvolle volgorde

Voorbeelden

  • Afdeling binnen een bedrijf

    • Marketing, Finance, Technology
  • Moedertaal

    • English, Czech, Spanish ...
  • Autotype

    • SUV, sedan, compact ...
Modelleren met tidymodels in R

Nominale voorspellers transformeren

Nominale data moet naar numeriek worden omgezet voor modelleren

One-hot encoding

  • Zet categoriewaarden om naar [0/1]-indicatorvariabelen
  • Indicatorvariabele voor elke unieke waarde in de originele data

 

one_hot_encoding

Modelleren met tidymodels in R

Nominale voorspellers transformeren

Dummyvariabele-encoding

  • Sluit één waarde uit van de oorspronkelijke set
    • n verschillende waarden leveren ( n - 1 ) indicatorvariabelen op
  • Voorkeursmethode voor modelleren
    • Standaard in het pakket recipes

 

dummy_encoding

Modelleren met tidymodels in R

Lead scoring data

Nominale voorspellervariabelen - lead_source en us_location

leads_training
# A tibble: 996 x 7
 purchased total_visits total_time pages_per_visit total_clicks lead_source   us_location
   <fct>      <dbl>      <dbl>          <dbl>          <dbl>      <fct>          <fct>
 1 yes         7         1148           7              59       direct_traffic    west
 2 no          5         228            2.5            25       email             southeast
 3 no          7         481            2.33           21       organic_search    west
 4 no          4         177            4              37       direct_traffic    west
 5 no          2         1273           2              26       email             midwest
# ... with 991 more rows
Modelleren met tidymodels in R

Dummyvariabelen maken

De functie step_dummy()

  • Maakt dummyvariabelen van nominale voorspellers
recipe(purchased ~ ., data = leads_training) %>%

step_dummy(lead_source, us_location) %>%
prep(training = leads_training) %>%
bake(new_data = leads_test)
# A tibble: 332 x 12
   total_visits ... lead_source_email  lead_source_organic_search  lead_source_direct_traffic  us_location_southeast ... us_location_west
       <dbl>    ...      <dbl>                 <dbl>                      <dbl>                       <dbl>                     <dbl>
1        8      ...         0                    0                          1                          0                        1
2        4      ...         0                    0                          1                          0                        0
3        3      ...         0                    1                          0                          0                        1
4        2      ...         1                    0                          0                          0                        0
5        9      ...         0                    0                          1                          0                        1

# ... with 327 more rows
Modelleren met tidymodels in R

Kolommen selecteren op type

Selecteren op kolomtype met selectors all_nominal() en all_outcomes()

  • -all_outcomes() sluit de nominale uitkomstvariabele purchased uit
recipe(purchased ~ ., data = leads_training) %>%

step_dummy(all_nominal(), -all_outcomes()) %>%
prep(training = leads_training) %>%
bake(new_data = leads_test)
# A tibble: 332 x 12
   total_visits ... lead_source_email  lead_source_organic_search  lead_source_direct_traffic ... us_location_west
       <dbl>    ...      <dbl>                 <dbl>                      <dbl>                           <dbl>
1        8      ...         0                    0                          1                                 1
2        4      ...         0                    0                          1                                 0
3        3      ...         0                    1                          0                                 1
4        2      ...         1                    0                          0                                 0
5        9      ...         0                    0                          1                                 1
# ... with 327 more rows
Modelleren met tidymodels in R

Nominale voorspellervariabelen preprocessen

Modeling engines in R

  • Veel maken automatisch dummyvariabelen
    • Nominale voorspellers mogelijk zonder preprocessing met step_dummy()
  • Niet consistent over alle engines
    • One-hot vs dummyvariabelen
    • Naamgeving van nieuwe variabelen

 

Het pakket recipes biedt een gestandaardiseerde manier om nominale voorspellers voor modelleren voor te bereiden

Modelleren met tidymodels in R

Laten we oefenen!

Modelleren met tidymodels in R

Preparing Video For Download...