Waarom bestaande features transformeren?

Feature engineering in R

Jorge Zazueta

Research Professor. Head of the Modeling Group at the School of Economics, UASLP

Je model het makkelijker maken

We kunnen de prestaties van ons ML-model verbeteren door de data behapbaarder te maken.

glimpse(loans_num)

Rows: 614
Columns: 6
$ Loan_Status       <fct> Y, N, Y, Y, Y, Y, Y, N, Y, N, Y, Y, Y, N...
$ ApplicantIncome   <dbl> 5849, 4583, 3000, 2583, 6000, 5417, 233...
$ CoapplicantIncome <dbl> 0, 1508, 0, 2358, 0, 4196, 1516, 2504, 1...
$ LoanAmount        <dbl> NA, 128, 66, 120, 141, 267, 95, 158, 168...
$ Loan_Amount_Term  <dbl> 360, 360, 360, 360, 360, 360, 360, 360, ...
$ Credit_History    <fct> 1, 1, 1, 1, 1, 1, 1, 0, 1, 1, 1, 1, 1, 1...

Logtransformatie

Pas een log-transformatie toe op numerieke features om:

Scheve data te corrigeren
De impact van uitschieters te verkleinen
Multiplicatieve relaties additief te maken
De data geschikter te maken voor modelleren
Werkt alleen voor positieve waarden

log-getransformeerde leenbedragen

Grafische vergelijking van ruwe en log-getransformeerde data

Normalisatie

Normaliseer of schaal numerieke features om:

Te voorkomen dat één feature domineert
Interpretatie te vergemakkelijken door vergelijkbare grootteorden te geven en
De data geschikter te maken voor modelleren

Bijv. leenlooptijden variëren sterk

Histogram met leenlooptijden.

Normalisatie

Normaliseer of schaal numerieke features om:

Te voorkomen dat één feature domineert
Beter met uitschieters om te gaan en
Ontbrekende waarden te verwerken
De data geschikter te maken voor modelleren

Genormaliseerde waarden behouden de verdeling, maar bevatten variatie.

Histogram met leenbedragen met genormaliseerde data eroverheen.

Het model en de recipe definiëren

We kunnen nu een logistische regressie definiëren en een recipe toevoegen om relevante features te imputeren, normaliseren en log-transformeren.

lr_model <- logistic_reg()

lr_recipe <- 
  recipe(Loan_Status ~., 
         data = train) %>%
  step_impute_knn(
    all_numeric_predictors())%>%
  step_normalize(Loan_Amount_Term) %>%
  step_log(all_numeric_predictors(),
           -Loan_Amount_Term, offset = 1)

Het afdrukken van het recipe-object toont een samenvatting van de stappen.

lr_recipe

Recipe

Inputs:

      role #variables
   outcome          1
 predictor          5

Operations:

K-nearest neighbor imputation for all_numeric_predictors()
Centering and scaling for Loan_Amount_Term
Log transformation on all_numeric_predictors(),-Loan_Amount_Term

Prestaties efficiënt meten

We definiëren de metrics roc_auc, accuracy en sens om de fit-workflow lr_fit te beoordelen.

class_evaluate <- metric_set(
  roc_auc, accuracy, sens)

En we voeren dit uit zoals elke functie.

lr_aug %>% 
  class_evaluate(
    truth = Loan_Status, 
    estimate = .pred_class, 
    .pred_Y)

Aangepaste set metrics

# A tibble: 3 × 3
  .metric  .estimator .estimate
  <chr>    <chr>          <dbl>
1 accuracy binary         0.813
2 sens     binary         0.467
3 roc_auc  binary         0.288

Laten we oefenen!

Feature engineering in R