Prediktor nominal

Pemodelan dengan tidymodels di R

David Svancer

Data Scientist

Data nominal

Data yang mengkodekan karakteristik atau kelompok

  • Tanpa urutan bermakna

Contoh

  • Departemen dalam perusahaan

    • Pemasaran, Keuangan, Teknologi
  • Bahasa ibu

    • English, Czech, Spanish ...
  • Jenis mobil

    • SUV, sedan, compact ...
Pemodelan dengan tidymodels di R

Mengubah prediktor nominal

Data nominal harus diubah menjadi numerik untuk pemodelan

One-Hot Encoding

  • Memetakan nilai kategori ke deret variabel indikator [0/1]
  • Variabel indikator untuk setiap nilai unik di data asli

 

one_hot_encoding

Pemodelan dengan tidymodels di R

Mengubah prediktor nominal

Dummy Variable Encoding

  • Mengecualikan satu nilai dari himpunan nilai asli
    • Nilai unik n menghasilkan (n - 1) variabel indikator
  • Metode yang disukai untuk pemodelan
    • Default di paket recipes

 

dummy_encoding

Pemodelan dengan tidymodels di R

Data penilaian prospek

Variabel prediktor nominal - lead_source dan us_location

leads_training
# A tibble: 996 x 7
 purchased total_visits total_time pages_per_visit total_clicks lead_source   us_location
   <fct>      <dbl>      <dbl>          <dbl>          <dbl>      <fct>          <fct>
 1 yes         7         1148           7              59       direct_traffic    west
 2 no          5         228            2.5            25       email             southeast
 3 no          7         481            2.33           21       organic_search    west
 4 no          4         177            4              37       direct_traffic    west
 5 no          2         1273           2              26       email             midwest
# ... with 991 more rows
Pemodelan dengan tidymodels di R

Membuat variabel dummy

Fungsi step_dummy()

  • Membuat variabel dummy dari prediktor nominal
recipe(purchased ~ ., data = leads_training) %>%

step_dummy(lead_source, us_location) %>%
prep(training = leads_training) %>%
bake(new_data = leads_test)
# A tibble: 332 x 12
   total_visits ... lead_source_email  lead_source_organic_search  lead_source_direct_traffic  us_location_southeast ... us_location_west
       <dbl>    ...      <dbl>                 <dbl>                      <dbl>                       <dbl>                     <dbl>
1        8      ...         0                    0                          1                          0                        1
2        4      ...         0                    0                          1                          0                        0
3        3      ...         0                    1                          0                          0                        1
4        2      ...         1                    0                          0                          0                        0
5        9      ...         0                    0                          1                          0                        1

# ... with 327 more rows
Pemodelan dengan tidymodels di R

Memilih kolom berdasarkan tipe

Memilih berdasarkan tipe kolom menggunakan selektor all_nominal() dan all_outcomes()

  • -all_outcomes() mengecualikan variabel hasil nominal, purchased
recipe(purchased ~ ., data = leads_training) %>%

step_dummy(all_nominal(), -all_outcomes()) %>%
prep(training = leads_training) %>%
bake(new_data = leads_test)
# A tibble: 332 x 12
   total_visits ... lead_source_email  lead_source_organic_search  lead_source_direct_traffic ... us_location_west
       <dbl>    ...      <dbl>                 <dbl>                      <dbl>                           <dbl>
1        8      ...         0                    0                          1                                 1
2        4      ...         0                    0                          1                                 0
3        3      ...         0                    1                          0                                 1
4        2      ...         1                    0                          0                                 0
5        9      ...         0                    0                          1                                 1
# ... with 327 more rows
Pemodelan dengan tidymodels di R

Prapemrosesan prediktor nominal

Mesin pemodelan di R

  • Banyak yang membuat variabel dummy otomatis
    • Dapat memakai prediktor nominal tanpa prapemrosesan step_dummy()
  • Tidak konsisten di semua mesin
    • One-hot vs variabel dummy
    • Penamaan variabel baru

 

Paket recipes memberi cara standar menyiapkan prediktor nominal untuk pemodelan

Pemodelan dengan tidymodels di R

Ayo berlatih!

Pemodelan dengan tidymodels di R

Preparing Video For Download...