Feature Engineering in R
Jorge Zazueta
Research Professor. Head of the Modeling Group at the School of Economics, UASLP
Possiamo migliorare le prestazioni del modello rendendo i dati più gestibili.
glimpse(loans_num)
Rows: 614
Columns: 6
$ Loan_Status <fct> Y, N, Y, Y, Y, Y, Y, N, Y, N, Y, Y, Y, N...
$ ApplicantIncome <dbl> 5849, 4583, 3000, 2583, 6000, 5417, 233...
$ CoapplicantIncome <dbl> 0, 1508, 0, 2358, 0, 4196, 1516, 2504, 1...
$ LoanAmount <dbl> NA, 128, 66, 120, 141, 267, 95, 158, 168...
$ Loan_Amount_Term <dbl> 360, 360, 360, 360, 360, 360, 360, 360, ...
$ Credit_History <fct> 1, 1, 1, 1, 1, 1, 1, 0, 1, 1, 1, 1, 1, 1...
Applica una trasformazione log alle feature numeriche per:
Dati dell’importo del prestito trasformati con log

Normalizza o ridimensiona le feature numeriche per:
ad es., i valori della durata dell’importo del prestito variano molto

Normalizza o ridimensiona le feature numeriche per:
I valori normalizzati preservano la distribuzione, ma mantengono la variazione.

Ora possiamo dichiarare un modello di regressione logistica e aggiungere una recipe per imputare, normalizzare e log-trasformare le feature rilevanti.
lr_model <- logistic_reg()
lr_recipe <-
recipe(Loan_Status ~.,
data = train) %>%
step_impute_knn(
all_numeric_predictors())%>%
step_normalize(Loan_Amount_Term) %>%
step_log(all_numeric_predictors(),
-Loan_Amount_Term, offset = 1)
La stampa dell’oggetto recipe mostra un riepilogo dei passaggi applicati.
lr_recipe
Recipe
Inputs:
role #variables
outcome 1
predictor 5
Operations:
K-nearest neighbor imputation for all_numeric_predictors()
Centering and scaling for Loan_Amount_Term
Log transformation on all_numeric_predictors(),-Loan_Amount_Term
Definiamo un set di metriche, roc_auc, accuracy e sens, per valutare l’oggetto workflow lr_fit.
class_evaluate <- metric_set(
roc_auc, accuracy, sens)
E lo esegui come qualsiasi funzione.
lr_aug %>%
class_evaluate(
truth = Loan_Status,
estimate = .pred_class,
.pred_Y)
Set di metriche personalizzato
# A tibble: 3 × 3
.metric .estimator .estimate
<chr> <chr> <dbl>
1 accuracy binary 0.813
2 sens binary 0.467
3 roc_auc binary 0.288
Feature Engineering in R