Prediktor numerik

Pemodelan dengan tidymodels di R

David Svancer

Data Scientist

Variabel prediktor berkorelasi

Korelasi mengukur kekuatan hubungan linear antara dua variabel numerik

  • Berkisar dari -1 hingga 1
  • Prediktor sangat berkorelasi mendekati -1 atau 1

    • Memberikan informasi berlebih
    • Menyebabkan masalah pemodelan (multikolinearitas)

     

ggplot(leads_training,
       aes(x = pages_per_visit, y = total_clicks)) + 
  geom_point()  + 
  labs(title = 'Total Clicks vs Average Page Visits',
       y = 'Total Clicks', x = 'Average Pages per Visit')

Plot sebar total clicks versus pages per visit pada data lead scoring

Pemodelan dengan tidymodels di R

Menemukan variabel prediktor berkorelasi

Hitung matriks korelasi

  • Berikan dataset ke fungsi select_if()
    • Gunakan argumen is.numeric
  • Teruskan ke fungsi cor()
leads_training %>%

select_if(is.numeric) %>%
cor()
              total_visits total_time pages_per_visit total_clicks
total_visits        1.00       0.01            0.43         0.42
total_time          0.01       1.00            0.02         0.01
pages_per_visit     0.43       0.02            1.00         0.96
total_clicks        0.42       0.01            0.96         1.00
Pemodelan dengan tidymodels di R

Memproses prediktor berkorelasi

Menghilangkan multikolinearitas dengan recipes

  • Tentukan objek recipe dengan fungsi recipe()
  • Teruskan ke step_corr()
    • Tambahkan semua kolom numerik
      • Nama kolom dipisah koma
    • Berikan threshold korelasi
      • Nilai absolut
      • Ambang 0,9 menghapus korelasi ≥ 0,9 atau ≤ -0,9
leads_cor_rec <- recipe(purchased ~ .,
                        data = leads_training) %>%

step_corr(total_visits, total_time, pages_per_visit, total_clicks, threshold = 0.9)
leads_cor_rec
Data Recipe
Inputs:
      role #variables
   outcome          1
 predictor          6

Operations:
Correlation filter on total_visits,..., total_clicks
Pemodelan dengan tidymodels di R

Memilih prediktor berdasarkan tipe

  • all_outcomes()
    • Memilih variabel outcome
  • all_numeric()
    • Memilih semua variabel numerik
      • Menyertakan variabel outcome jika numerik

Untuk memilih prediktor numerik untuk langkah recipe

  • Berikan all_numeric() ke fungsi step_*()
  • Jika variabel outcome numerik, sertakan juga -all_outcomes()
leads_cor_rec <- recipe(purchased ~ .,
                        data = leads_training) %>%

step_corr(all_numeric(), threshold = 0.9)
leads_cor_rec
Data Recipe
Inputs:
      role #variables
   outcome          1
 predictor          6

Operations:
Correlation filter on all_numeric()
Pemodelan dengan tidymodels di R

Melatih dan menerapkan recipe

  • Latih dengan prep()
    • Gunakan leads_training untuk pelatihan
  • Terapkan dengan bake()
    • pages_per_visit dihapus dari leads_test
    • pages_per_visit juga akan dihapus dari data baru
leads_cor_rec %>% 

prep(training = leads_training) %>%
bake(new_data = leads_test)
# A tibble: 332 x 6
total_visits total_time total_clicks ... purchased
    <dbl>       <dbl>        <dbl>   ...   <fct>
 1   8          100           24     ...    no
 2   4          1346          22     ...    yes
 3   3          176           27     ...    no
 4   2          16            12     ...    no
 5   9          1022          12     ...    yes
# ... with 327 more rows
Pemodelan dengan tidymodels di R

Normalisasi

Memusatkan dan menstandarkan variabel numerik

  • Kurangi dengan mean
  • Bagi dengan standar deviasi
  • Mengubah data ke satuan standar deviasi
    • Variabel tertransformasi memiliki mean 0 dan standar deviasi 1

Variabel total_time di leads_training

  • Menghabiskan 1.273 detik di situs adalah 1,19 standar deviasi di atas rata-rata waktu pelanggan

 

Contoh normalisasi variabel total time dari leads training

Pemodelan dengan tidymodels di R

Menggabungkan langkah prapemrosesan data

Menormalisasi prediktor numerik dengan recipes

  • step_normalize()
    • Nama kolom atau selektor all_numeric()
    • Mean dan standar deviasi dari data latih diterapkan ke data baru

Beberapa fungsi step_*() dapat ditambahkan ke recipe

  • Urutan berpengaruh
leads_norm_rec <- recipe(purchased ~ .,
                         data = leads_training) %>%

step_corr(all_numeric(), threshold = 0.9) %>% step_normalize(all_numeric())
leads_norm_rec
Data Recipe
Inputs:
      role #variables
   outcome          1
 predictor          6

Operations:
Correlation filter on all_numeric()
Centering and scaling for all_numeric()
Pemodelan dengan tidymodels di R

Mentransformasi data uji

pages_per_vist dihapus dan prediktor numerik dinormalisasi

leads_norm_rec %>% 
  prep(training = leads_training) %>% 
  bake(new_data = leads_test)
# A tibble: 332 x 6
 total_visits  total_time  total_clicks  lead_source   us_location  purchased
      <dbl>      <dbl>        <dbl>        <fct>          <fct>      <fct>    
 1    0.864     -0.984     -0.360        direct_traffic   west        no       
 2   -0.151      1.33      -0.506        direct_traffic   northeast   yes      
 3   -0.405     -0.843     -0.140        organic_search   west        no       
 4   -0.659     -1.14      -1.24         email            midwest     no       
 5    1.12       0.725     -1.24         direct_traffic   west        yes           
# ... with 327 more rows
Pemodelan dengan tidymodels di R

Ayo berlatih!

Pemodelan dengan tidymodels di R

Preparing Video For Download...