Perché trasformare le feature esistenti?

Feature Engineering in R

Jorge Zazueta

Research Professor. Head of the Modeling Group at the School of Economics, UASLP

Facilitare la vita al modello

Possiamo migliorare le prestazioni del modello rendendo i dati più gestibili.

glimpse(loans_num)

Rows: 614
Columns: 6
$ Loan_Status       <fct> Y, N, Y, Y, Y, Y, Y, N, Y, N, Y, Y, Y, N...
$ ApplicantIncome   <dbl> 5849, 4583, 3000, 2583, 6000, 5417, 233...
$ CoapplicantIncome <dbl> 0, 1508, 0, 2358, 0, 4196, 1516, 2504, 1...
$ LoanAmount        <dbl> NA, 128, 66, 120, 141, 267, 95, 158, 168...
$ Loan_Amount_Term  <dbl> 360, 360, 360, 360, 360, 360, 360, 360, ...
$ Credit_History    <fct> 1, 1, 1, 1, 1, 1, 1, 0, 1, 1, 1, 1, 1, 1...

Trasformazione log

Applica una trasformazione log alle feature numeriche per:

Gestire dati asimmetrici
Ridurre l’impatto degli outlier
Convertire relazioni moltiplicative in additive
Rendere i dati più adatti al modeling
Funziona solo per valori positivi

Dati dell’importo del prestito trasformati con log

Confronto grafico tra dati grezzi e log-trasformati

Normalizzazione

Normalizza o ridimensiona le feature numeriche per:

Evitare che una feature domini le altre
Facilitare l’interpretazione grazie a magnitudini comparabili e
Rendere i dati più adatti al modeling

ad es., i valori della durata dell’importo del prestito variano molto

Istogramma che mostra i valori della durata dell'importo del prestito.

Normalizzazione

Normalizza o ridimensiona le feature numeriche per:

Evitare che una feature domini le altre
Gestire gli outlier e
I valori mancanti
Rendere i dati più adatti al modeling

I valori normalizzati preservano la distribuzione, ma mantengono la variazione.

Istogramma degli importi del prestito con dati normalizzati sovrapposti.

Definire il modello e la recipe

Ora possiamo dichiarare un modello di regressione logistica e aggiungere una recipe per imputare, normalizzare e log-trasformare le feature rilevanti.

lr_model <- logistic_reg()

lr_recipe <- 
  recipe(Loan_Status ~., 
         data = train) %>%
  step_impute_knn(
    all_numeric_predictors())%>%
  step_normalize(Loan_Amount_Term) %>%
  step_log(all_numeric_predictors(),
           -Loan_Amount_Term, offset = 1)

La stampa dell’oggetto recipe mostra un riepilogo dei passaggi applicati.

lr_recipe

Recipe

Inputs:

      role #variables
   outcome          1
 predictor          5

Operations:

K-nearest neighbor imputation for all_numeric_predictors()
Centering and scaling for Loan_Amount_Term
Log transformation on all_numeric_predictors(),-Loan_Amount_Term

Misurare le prestazioni in modo efficiente

Definiamo un set di metriche, roc_auc, accuracy e sens, per valutare l’oggetto workflow lr_fit.

class_evaluate <- metric_set(
  roc_auc, accuracy, sens)

E lo esegui come qualsiasi funzione.

lr_aug %>% 
  class_evaluate(
    truth = Loan_Status, 
    estimate = .pred_class, 
    .pred_Y)

Set di metriche personalizzato

# A tibble: 3 × 3
  .metric  .estimator .estimate
  <chr>    <chr>          <dbl>
1 accuracy binary         0.813
2 sens     binary         0.467
3 roc_auc  binary         0.288

Passons à la pratique !

Feature Engineering in R