Menilai kecocokan model

Pemodelan dengan tidymodels di R

David Svancer

Data Scientist

Klasifikasi biner

Variabel keluaran dengan dua level

  • Kelas positif
    • Peristiwa yang ingin diprediksi
    • "yes" pada variabel purchased
  • Kelas negatif

    • "no"
  • Di tidymodels variabel keluaran harus bertipe factor

    • Level pertama adalah kelas positif
    • Cek urutan dengan levels()
leads_df
# A tibble: 1,328 x 7
  purchased total_visits  ...   us_location
   <fct>        <dbl>     ...     <fct>
 1 yes            7       ...     west
 2 no             8       ...     west
 3 no             5       ...     southeast
# ... with 1,325 more rows
levels(leads_df[['purchased']])
[1] "yes" "no"
Pemodelan dengan tidymodels di R

Confusion matrix

 

Matriks jumlah semua kombinasi nilai aktual dan prediksi

Prediksi benar

  • True Positive (TP)
  • True Negative (TN)

Kesalahan klasifikasi

  • False Positive (FP)
  • False Negative (FN)

 

Confusion matrix

Pemodelan dengan tidymodels di R

Metrik klasifikasi dengan yardstick

Membuat confusion matrix dan metrik kecocokan model lain dengan yardstick

  • Membutuhkan tibble hasil model yang berisi:
    • Nilai keluaran sebenarnya
      • purchased
    • Kategori keluaran prediksi
      • .pred_class
    • Probabilitas taksiran tiap kategori
      • .pred_yes
      • .pred_no
leads_results
# A tibble: 332 x 4
   purchased .pred_class .pred_yes .pred_no
   <fct>     <fct>           <dbl>    <dbl>
 1 no        no             0.134     0.866
 2 yes       yes            0.729     0.271
 3 no        no             0.133     0.867
 4 no        no             0.0916    0.908
 5 yes       yes            0.598     0.402
 6 no        no             0.128     0.872
 7 yes       no             0.112     0.888
 8 no        no             0.169     0.831
 9 no        no             0.158     0.842
10 yes       yes            0.520     0.480
# ... with 322 more rows
Pemodelan dengan tidymodels di R

Confusion matrix dengan yardstick

Fungsi conf_mat()

  • Tibble hasil model
  • truth - kolom dengan label sebenarnya
  • estimate - kolom dengan label prediksi

Regresi logistik pada leads_df

  • 252 dari 332 pelanggan diklasifikasi benar (76%)
  • 46 false negative
  • 34 false positive
conf_mat(leads_results,

truth = purchased,
estimate = .pred_class)
          Truth
Prediction yes  no
       yes  74  34
       no   46 178
Pemodelan dengan tidymodels di R

Akurasi klasifikasi

Fungsi accuracy()

  • Argumen sama seperti conf_mat()
  • Menghitung akurasi klasifikasi

 

$$\frac{TP + TN}{TP + TN + FP + FN}$$

 

  • Fungsi yardstick selalu mengembalikan tibble
    • .metric - jenis metrik
    • .estimate - nilai hasil hitung
accuracy(leads_results, 
         truth = purchased, 
         estimate = .pred_class)
# A tibble: 1 x 3
  .metric  .estimator .estimate
  <chr>    <chr>          <dbl>
1 accuracy binary         0.759
Pemodelan dengan tidymodels di R

Sensitivity

Sering kali, akurasi bukan metrik terbaik

  • Data leads_df
    • Mengklasifikasikan semua sebagai 'no' memberi akurasi 64%

 

Sensitivity

Proporsi kasus positif yang diklasifikasi benar

  • Dari pelanggan yang melakukan pembelian, berapa proporsi yang diprediksi benar oleh model?
    • False negative lebih rendah meningkatkan sensitivity

Perhitungan sensitivity

Pemodelan dengan tidymodels di R

Menghitung sensitivity

Fungsi sens()

  • Argumen sama seperti conf_mat() dan accuracy()
  • Mengembalikan nilai sensitivity pada kolom .estimate
sens(leads_results, 
     truth = purchased, 
     estimate = .pred_class)
# A tibble: 1 x 3
  .metric .estimator .estimate
  <chr>   <chr>          <dbl>
1 sens    binary         0.617
Pemodelan dengan tidymodels di R

Specificity

Specificity adalah proporsi semua kasus negatif yang diklasifikasi benar

  • Dari pelanggan yang tidak membeli, berapa proporsi yang diprediksi benar oleh model?
    • False positive lebih rendah meningkatkan specificity

 

1 - Specificity

  • Disebut juga false positive rate (FPR)
  • Proporsi false positive di antara true negative

Perhitungan specificity

Pemodelan dengan tidymodels di R

Menghitung specificity

Fungsi spec()

  • Argumen sama seperti sens()
  • Mengembalikan nilai specificity pada kolom .estimate
spec(leads_results, 
     truth = purchased, 
     estimate = .pred_class)
# A tibble: 1 x 3
  .metric .estimator .estimate
  <chr>   <chr>          <dbl>
1 spec    binary         0.840
Pemodelan dengan tidymodels di R

Membuat metric set

Kumpulan metrik buatan pengguna

  • Fungsi metric_set()
    • Membuat fungsi metrik kustom dengan memilih metrik yardstick
    • Masukkan nama fungsi metrik yardstick ke metric_set()
    • Gunakan fungsi kustom untuk menghitung metrik
custom_metrics <-
  metric_set(accuracy, sens, spec)
custom_metrics(leads_results, 
               truth = purchased, 
               estimate = .pred_class)
# A tibble: 3 x 3
  .metric  .estimator .estimate
  <chr>    <chr>          <dbl>
1 accuracy binary         0.759
2 sens     binary         0.617
3 spec     binary         0.840
Pemodelan dengan tidymodels di R

Banyak metrik

Metrik klasifikasi biner

  • Banyak ragam metrik klasifikasi biner

    • accuracy(), kap(), sens(), spec(), ppv(), npv(), mcc(), j_index(), bal_accuracy(), detection_prevalence(), precision(), recall(), f_meas()
  • Umpankan hasil conf_mat() ke summary() untuk menghitung semuanya

 

https://yardstick.tidymodels.org/reference

conf_mat(leads_results, truth = purchased, 
         estimate = .pred_class) %>% 
  summary()
# A tibble: 13 x 3
   .metric              .estimator .estimate
   <chr>                <chr>          <dbl>
 1 accuracy             binary         0.759
 2 kap                  binary         0.466
 3 sens                 binary         0.617
 4 spec                 binary         0.840
 5 ppv                  binary         0.685
 6 npv                  binary         0.795
 7 mcc                  binary         0.468
 8 j_index              binary         0.456
 9 bal_accuracy         binary         0.728
10 detection_prevalence binary         0.325
11 precision            binary         0.685
12 recall               binary         0.617
13 f_meas               binary         0.649
Pemodelan dengan tidymodels di R

Ayo berlatih!

Pemodelan dengan tidymodels di R

Preparing Video For Download...