Feature engineering in R
Jorge Zazueta
Research Professor. Head of the Modeling Group at the School of Economics, UASLP
We kunnen de prestaties van ons ML-model verbeteren door de data behapbaarder te maken.
glimpse(loans_num)
Rows: 614
Columns: 6
$ Loan_Status <fct> Y, N, Y, Y, Y, Y, Y, N, Y, N, Y, Y, Y, N...
$ ApplicantIncome <dbl> 5849, 4583, 3000, 2583, 6000, 5417, 233...
$ CoapplicantIncome <dbl> 0, 1508, 0, 2358, 0, 4196, 1516, 2504, 1...
$ LoanAmount <dbl> NA, 128, 66, 120, 141, 267, 95, 158, 168...
$ Loan_Amount_Term <dbl> 360, 360, 360, 360, 360, 360, 360, 360, ...
$ Credit_History <fct> 1, 1, 1, 1, 1, 1, 1, 0, 1, 1, 1, 1, 1, 1...
Pas een log-transformatie toe op numerieke features om:
log-getransformeerde leenbedragen

Normaliseer of schaal numerieke features om:
Bijv. leenlooptijden variëren sterk

Normaliseer of schaal numerieke features om:
Genormaliseerde waarden behouden de verdeling, maar bevatten variatie.

We kunnen nu een logistische regressie definiëren en een recipe toevoegen om relevante features te imputeren, normaliseren en log-transformeren.
lr_model <- logistic_reg()
lr_recipe <-
recipe(Loan_Status ~.,
data = train) %>%
step_impute_knn(
all_numeric_predictors())%>%
step_normalize(Loan_Amount_Term) %>%
step_log(all_numeric_predictors(),
-Loan_Amount_Term, offset = 1)
Het afdrukken van het recipe-object toont een samenvatting van de stappen.
lr_recipe
Recipe
Inputs:
role #variables
outcome 1
predictor 5
Operations:
K-nearest neighbor imputation for all_numeric_predictors()
Centering and scaling for Loan_Amount_Term
Log transformation on all_numeric_predictors(),-Loan_Amount_Term
We definiëren de metrics roc_auc, accuracy en sens om de fit-workflow lr_fit te beoordelen.
class_evaluate <- metric_set(
roc_auc, accuracy, sens)
En we voeren dit uit zoals elke functie.
lr_aug %>%
class_evaluate(
truth = Loan_Status,
estimate = .pred_class,
.pred_Y)
Aangepaste set metrics
# A tibble: 3 × 3
.metric .estimator .estimate
<chr> <chr> <dbl>
1 accuracy binary 0.813
2 sens binary 0.467
3 roc_auc binary 0.288
Feature engineering in R