Cos'è il feature engineering?

Feature Engineering in R

Jorge Zazueta

Research Professor and Head of the Modeling Group at the School of Economics, UASLP

Cos'è il feature engineering?

Il feature engineering è l'arte e la scienza di

  • creare,
  • trasformare,
  • estrarre e
  • selezionare

variabili per migliorare prestazioni e interpretabilità del modello.

Altezza di un oggetto in funzione del tempo

# A tibble: 100 × 2
    time height
   <dbl>  <dbl>
 1 0       0   
 2 0.101   3.85
 3 0.202  17.7 
 4 0.303  15.1 
 5 0.404  20.0 
 6 0.505  32.6 
 7 0.606  30.8 
 8 0.707  26.6 
 9 0.808  33.8 
10 0.909  39.2 
# ... with 90 more rows
# ℹ Use `print(n = ...)` to see more rows
Feature Engineering in R

Perché fare feature engineering?

Creiamo un semplice modello di regressione dell'altezza

lr_height <- lm(height ~ time,
                data = height)

e lo grafichiamo per valutarne a occhio l'accuratezza.

df <- height %>% 
bind_cols(lr_pred = predict(lr_height))

df %>%
  ggplot(aes(x = time, y = height)) +
  geom_point() +
  geom_line(aes(y = lr_pred), 
            color = "blue", lwd = .75)+
    theme_classic()

Il modello rappresenta malissimo i dati!

Regressione lineare: altezza vs tempo.

Regressione lineare di altezza vs tempo che mostra la scarsa aderenza.

Feature Engineering in R

Usare mutate()

L'altezza di un oggetto segue una traiettoria parabolica, data dalla formula:

$y(t) = y_0 + v_0t - \frac{g}{2}t^2$.

Dove $y$ è l'altezza all'istante $t$ e $y_0$, $v_0$ e $g$ sono rispettivamente altezza iniziale, velocità e accelerazione di gravità.

Possiamo adattare il modello considerando la dipendenza da tempo e quadrato del tempo.

mutate() prende un data frame come primo argomento e la definizione di una nuova variabile da aggiungere al data frame.

df_2 <- df %>% mutate(time_2 = time^2)
# A tibble: 100 × 4
    time height lr_pred time_2
   <dbl>  <dbl>   <dbl>  <dbl>
 1 0       0       80.8 0     
 2 0.101   3.85    80.9 0.0102
 3 0.202  17.7     81.0 0.0408
 4 0.303  15.1     81.1 0.0918
Feature Engineering in R

Predire con la feature creata

Creiamo un altro modello di regressione, usando la nuova feature insieme a quella originale.

lr_height_2 <- 
lm(height ~ time + time_2, data = df_2)

E tracciamo la nuova previsione.

df_2 <- df_2 %>%
    bind_cols(lr2_pred = predict(lr_height_2))
df_2 %>%
  ggplot(aes(x = time, y = height)) +
  geom_point() +
  geom_line(aes(y = lr2_pred), 
      col = "blue", lwd = .75) +
  theme_classic()

Un miglioramento notevole senza cambiare modello.

Altezza vs. tempo e time_2

Feature Engineering in R

Passiamo alla pratica !

Feature Engineering in R

Preparing Video For Download...