Yaygın özellik dönüşümleri

R'da Feature Engineering

Jorge Zazueta

Research Professor and Head of the Modeling Group at the School of Economics, UASLP

İki dönüşüm ailesi

Box-Cox

  • Normal olmayan değişkeni normale yaklaştırır
  • Aile olarak ters, log, kare ve küp kök özel durumlarını içerir
  • Sadece pozitif değerlerde çalışır

Box-Cox dönüşümü denklemi.

Yeo-Johnson

  • Box-Cox ile benzer özellikler
  • Sıfır ve negatif değerleri destekler
  • Pozitif $y$ için, $y+1$'in Box-Cox'u ile aynıdır

Yeo-Johnson dönüşümü denklemi.

R'da Feature Engineering

loans_num veri kümesi

glimpse(loans_num)
Rows: 480
Columns: 6
$ Loan_Status       <fct> N, Y, Y, Y, Y, Y, N, Y, N, Y, Y, N, Y, Y, N...
$ ApplicantIncome   <dbl> 4583, 3000, 2583, 6000, 5417, 2333, 3036, 4...
$ CoapplicantIncome <dbl> 1508, 0, 2358, 0, 4196, 1516, 2504, 1526, 1...
$ LoanAmount        <dbl> 128, 66, 120, 141, 267, 95, 158, 168, 349, ...
$ Loan_Amount_Term  <dbl> 360, 360, 360, 360, 360, 360, 360, 360, 360...
$ Credit_History    <fct> 1, 1, 1, 1, 1, 1, 0, 1, 1, 1, 1, 1, 1, 1, 0...
R'da Feature Engineering

Dönüşümleri uygulama

Düz tarif

lr_recipe_plain <- # Define recipe
  recipe(Loan_Status ~., data = train)
lr_workflow_plain <- # Bundle workflows
  workflow() %>%
  add_model(lr_model) %>%
  add_recipe(lr_recipe_plain)
lr_fit_plain <- # fit and augment
  lr_workflow_plain %>%
  fit(train)

Performansı değerlendir

lr_aug_plain %>% # Assess
  class_evaluate(truth = Loan_Status,
                 estimate = .pred_class,
                 .pred_N)
# A tibble: 2 × 3
  .metric  .estimator .estimate
  <chr>    <chr>          <dbl>
1 accuracy binary         0.817
2 roc_auc  binary         0.641
R'da Feature Engineering

Dönüşümleri uygulama

Box-Cox tarifi

lr_recipe_BC <- # Define recipe
  recipe(Loan_Status ~., data = train) %>%
  step_BoxCox(all_numeric())
lr_workflow_BC <- # Bundle workflows
  workflow() %>%
  add_model(lr_model) %>%
  add_recipe(lr_recipe_BC)
lr_fit_BC <- # fit and augment
  lr_workflow_BC %>%
  fit(train)

Uyarı mesajı

Box-Cox, pozitif olmayan değerleri işleyemez

Warning messages:
1: Non-positive values in selected
variable. 
2: No Box-Cox transformation could be 
estimated for: `CoapplicantIncome`
R'da Feature Engineering

Dönüşümleri uygulama

Box-Cox tarifi (yeniden)

Şimdi uyarıyı önlemek için CoappliantIncome seçimini kaldıralım.

lr_recipe_BC <- # Define recipe
  recipe(Loan_Status ~., data = train) %>%
  step_BoxCox(all_numeric(), 
              -CoapplicantIncome)
lr_workflow_BC <- # Bundle workflows
  workflow() %>%
  add_model(lr_model) %>%
  add_recipe(lr_recipe_BC)
lr_fit_BC <- # fit and augment
  lr_workflow_BC %>%
  fit(train)

Performansı değerlendir

lr_aug_BC %>% # Assess
  class_evaluate(truth = Loan_Status,
                 estimate = .pred_class,
                 .pred_N)
# A tibble: 2 × 3
  .metric  .estimator .estimate
  <chr>    <chr>          <dbl>
1 accuracy binary         0.817
2 roc_auc  binary         0.599
R'da Feature Engineering

Dönüşümleri uygulama

Yeo-Johnson tarifi

lr_recipe_YJ <- # Define recipe
  recipe(Loan_Status ~., data = train) %>%
  step_YeoJohnson(all_numeric())
lr_workflow_YJ <- # Bundle workflows
  workflow() %>%
  add_model(lr_model) %>%
  add_recipe(lr_recipe_YJ)
lr_fit_YJ <- # fit and augment
  lr_workflow_YJ %>%
  fit(train)

Performansı değerlendir

lr_aug_YJ %>% # Assess
  class_evaluate(truth = Loan_Status,
                 estimate = .pred_class,
                 .pred_N)
# A tibble: 2 × 3
  .metric  .estimator .estimate
  <chr>    <chr>          <dbl>
1 accuracy binary         0.817
2 roc_auc  binary         0.700
R'da Feature Engineering

Hadi pratik yapalım!

R'da Feature Engineering

Preparing Video For Download...