Mengotomatisasi alur pemodelan

Pemodelan dengan tidymodels di R

David Svancer

Data Scientist

Merampingkan alur kerja

Fungsi last_fit()

  • Mendukung model klasifikasi
  • Mempercepat proses pemodelan
  • Melatih model pada data latih dan menghasilkan prediksi pada data uji

 

Mirip fit(), langkah awal mencakup:

  • Membuat objek pemisahan data dengan rsample
  • Menentukan model dengan parsnip
leads_split <- initial_split(leads_df, 
                             strata = purchased)

logistic_model <- logistic_reg() %>% set_engine('glm') %>% set_mode('classification')
Pemodelan dengan tidymodels di R

Melatih model dan mengumpulkan metrik

Fungsi last_fit()

  • Objek model parsnip
  • Rumus model
  • Objek pemisahan data

 

Fungsi collect_metrics() menghitung metrik pada data uji

  • Bawaan: Accuracy dan ROC AUC
logistic_last_fit <- logistic_model %>% 
  last_fit(purchased ~ total_visits + total_time,
           split = leads_split)

logistic_last_fit %>% collect_metrics()

 

# A tibble: 2 x 3
  .metric  .estimator .estimate
  <chr>      <chr>       <dbl>
1 accuracy   binary      0.759
2 roc_auc    binary      0.763
Pemodelan dengan tidymodels di R

Mengumpulkan prediksi

collect_predictions()

  • Membuat tibble dengan semua kolom yang diperlukan untuk fungsi yardstick
  • Hasil aktual dan prediksi pada data uji
  • Kolom probabilitas taksiran untuk semua kategori keluaran
last_fit_results <- logistic_last_fit %>% 
  collect_predictions()
last_fit_results
# A tibble: 332 x 6
   id             .pred_yes .pred_no .row .pred_class purchased
   <chr>            <dbl>    <dbl>   <int>   <fct>      <fct>
 1 train/test split  0.134    0.866     2      no        no
 2 train/test split  0.729    0.271    17      yes       yes
 3 train/test split  0.133    0.867    21      no        no
 4 train/test split  0.0916   0.908    22      no        no
 5 train/test split  0.598    0.402    24      yes       yes
# ... with 327 more rows
Pemodelan dengan tidymodels di R

Kumpulan metrik kustom

Fungsi metric_set()

  • accuracy(), sens(), dan spec()
    • Memerlukan argumen truth dan estimate
  • roc_auc()
    • Memerlukan truth dan kolom probabilitas taksiran

 

Fungsi custom_metrics() akan butuh ketiganya, dengan .pred_yes sebagai argumen terakhir

custom_metrics <- metric_set(accuracy, sens,
                             spec, roc_auc)
custom_metrics(last_fit_results,
               truth = purchased,
               estimate = .pred_class,
               .pred_yes)
# A tibble: 4 x 3
  .metric  .estimator .estimate
  <chr>    <chr>          <dbl>
1 accuracy binary         0.759
2 sens     binary         0.617
3 spec     binary         0.840
4 roc_auc  binary         0.763
Pemodelan dengan tidymodels di R

Ayo berlatih!

Pemodelan dengan tidymodels di R

Preparing Video For Download...