Waarom bestaande features transformeren?

Feature engineering in R

Jorge Zazueta

Research Professor. Head of the Modeling Group at the School of Economics, UASLP

Je model het makkelijker maken

We kunnen de prestaties van ons ML-model verbeteren door de data behapbaarder te maken.

glimpse(loans_num)
Rows: 614
Columns: 6
$ Loan_Status       <fct> Y, N, Y, Y, Y, Y, Y, N, Y, N, Y, Y, Y, N...
$ ApplicantIncome   <dbl> 5849, 4583, 3000, 2583, 6000, 5417, 233...
$ CoapplicantIncome <dbl> 0, 1508, 0, 2358, 0, 4196, 1516, 2504, 1...
$ LoanAmount        <dbl> NA, 128, 66, 120, 141, 267, 95, 158, 168...
$ Loan_Amount_Term  <dbl> 360, 360, 360, 360, 360, 360, 360, 360, ...
$ Credit_History    <fct> 1, 1, 1, 1, 1, 1, 1, 0, 1, 1, 1, 1, 1, 1...
Feature engineering in R

Logtransformatie

Pas een log-transformatie toe op numerieke features om:

  • Scheve data te corrigeren
  • De impact van uitschieters te verkleinen
  • Multiplicatieve relaties additief te maken
  • De data geschikter te maken voor modelleren
  • Werkt alleen voor positieve waarden

log-getransformeerde leenbedragen

Grafische vergelijking van ruwe en log-getransformeerde data

Feature engineering in R

Normalisatie

Normaliseer of schaal numerieke features om:

  • Te voorkomen dat één feature domineert
  • Interpretatie te vergemakkelijken door vergelijkbare grootteorden te geven en
  • De data geschikter te maken voor modelleren

Bijv. leenlooptijden variëren sterk

Histogram met leenlooptijden.

Feature engineering in R

Normalisatie

Normaliseer of schaal numerieke features om:

  • Te voorkomen dat één feature domineert
  • Beter met uitschieters om te gaan en
  • Ontbrekende waarden te verwerken
  • De data geschikter te maken voor modelleren

Genormaliseerde waarden behouden de verdeling, maar bevatten variatie.

Histogram met leenbedragen met genormaliseerde data eroverheen.

Feature engineering in R

Het model en de recipe definiëren

We kunnen nu een logistische regressie definiëren en een recipe toevoegen om relevante features te imputeren, normaliseren en log-transformeren.

lr_model <- logistic_reg()

lr_recipe <- 
  recipe(Loan_Status ~., 
         data = train) %>%
  step_impute_knn(
    all_numeric_predictors())%>%
  step_normalize(Loan_Amount_Term) %>%
  step_log(all_numeric_predictors(),
           -Loan_Amount_Term, offset = 1)

Het afdrukken van het recipe-object toont een samenvatting van de stappen.

lr_recipe
Recipe

Inputs:

      role #variables
   outcome          1
 predictor          5

Operations:

K-nearest neighbor imputation for all_numeric_predictors()
Centering and scaling for Loan_Amount_Term
Log transformation on all_numeric_predictors(),-Loan_Amount_Term
Feature engineering in R

Prestaties efficiënt meten

We definiëren de metrics roc_auc, accuracy en sens om de fit-workflow lr_fit te beoordelen.

class_evaluate <- metric_set(
  roc_auc, accuracy, sens)

En we voeren dit uit zoals elke functie.

lr_aug %>% 
  class_evaluate(
    truth = Loan_Status, 
    estimate = .pred_class, 
    .pred_Y)

Aangepaste set metrics

# A tibble: 3 × 3
  .metric  .estimator .estimate
  <chr>    <chr>          <dbl>
1 accuracy binary         0.813
2 sens     binary         0.467
3 roc_auc  binary         0.288
Feature engineering in R

Laten we oefenen!

Feature engineering in R

Preparing Video For Download...