Rekayasa Fitur di R
Jorge Zazueta
Research Professor. Head of the Modeling Group at the School of Economics, UASLP
Kita dapat meningkatkan kinerja model pembelajaran mesin dengan membuat data lebih mudah diolah.
glimpse(loans_num)
Rows: 614
Columns: 6
$ Loan_Status <fct> Y, N, Y, Y, Y, Y, Y, N, Y, N, Y, Y, Y, N...
$ ApplicantIncome <dbl> 5849, 4583, 3000, 2583, 6000, 5417, 233...
$ CoapplicantIncome <dbl> 0, 1508, 0, 2358, 0, 4196, 1516, 2504, 1...
$ LoanAmount <dbl> NA, 128, 66, 120, 141, 267, 95, 158, 168...
$ Loan_Amount_Term <dbl> 360, 360, 360, 360, 360, 360, 360, 360, ...
$ Credit_History <fct> 1, 1, 1, 1, 1, 1, 1, 0, 1, 1, 1, 1, 1, 1...
Transformasi log pada fitur numerik untuk:
Data jumlah pinjaman yang ditransformasi log

Normalisasi atau penskalaan fitur numerik untuk:
mis., nilai jangka waktu pinjaman bervariasi signifikan

Normalisasi atau penskalaan fitur numerik untuk:
Nilai ternormalisasi mempertahankan distribusi, namun tetap bervariasi.

Kita kini dapat mendeklarasikan model regresi logistik dan menambahkan recipe untuk imputasi, normalisasi, dan transformasi log pada fitur terkait.
lr_model <- logistic_reg()
lr_recipe <-
recipe(Loan_Status ~.,
data = train) %>%
step_impute_knn(
all_numeric_predictors())%>%
step_normalize(Loan_Amount_Term) %>%
step_log(all_numeric_predictors(),
-Loan_Amount_Term, offset = 1)
Mencetak objek recipe menampilkan ringkasan langkah yang diterapkan.
lr_recipe
Recipe
Inputs:
role #variables
outcome 1
predictor 5
Operations:
K-nearest neighbor imputation for all_numeric_predictors()
Centering and scaling for Loan_Amount_Term
Log transformation on all_numeric_predictors(),-Loan_Amount_Term
Kita mendefinisikan metrik roc_auc, accuracy dan sens untuk menilai objek workflow terpasang lr_fit.
class_evaluate <- metric_set(
roc_auc, accuracy, sens)
Dan jalankan seperti fungsi biasa.
lr_aug %>%
class_evaluate(
truth = Loan_Status,
estimate = .pred_class,
.pred_Y)
Kumpulan metrik kustom
# A tibble: 3 × 3
.metric .estimator .estimate
<chr> <chr> <dbl>
1 accuracy binary 0.813
2 sens binary 0.467
3 roc_auc binary 0.288
Rekayasa Fitur di R