Feature Engineering in R
Jorge Zazueta
Research Professor and Head of the Modeling Group at the School of Economics, UASLP
Il feature engineering è l'arte e la scienza di
variabili per migliorare prestazioni e interpretabilità del modello.
Altezza di un oggetto in funzione del tempo
# A tibble: 100 × 2
time height
<dbl> <dbl>
1 0 0
2 0.101 3.85
3 0.202 17.7
4 0.303 15.1
5 0.404 20.0
6 0.505 32.6
7 0.606 30.8
8 0.707 26.6
9 0.808 33.8
10 0.909 39.2
# ... with 90 more rows
# ℹ Use `print(n = ...)` to see more rows
Creiamo un semplice modello di regressione dell'altezza
lr_height <- lm(height ~ time,
data = height)
e lo grafichiamo per valutarne a occhio l'accuratezza.
df <- height %>%
bind_cols(lr_pred = predict(lr_height))
df %>%
ggplot(aes(x = time, y = height)) +
geom_point() +
geom_line(aes(y = lr_pred),
color = "blue", lwd = .75)+
theme_classic()
Il modello rappresenta malissimo i dati!
Regressione lineare: altezza vs tempo.

L'altezza di un oggetto segue una traiettoria parabolica, data dalla formula:
$y(t) = y_0 + v_0t - \frac{g}{2}t^2$.
Dove $y$ è l'altezza all'istante $t$ e $y_0$, $v_0$ e $g$ sono rispettivamente altezza iniziale, velocità e accelerazione di gravità.
Possiamo adattare il modello considerando la dipendenza da tempo e quadrato del tempo.
mutate() prende un data frame come primo argomento e la definizione di una nuova variabile da aggiungere al data frame.
df_2 <- df %>% mutate(time_2 = time^2)
# A tibble: 100 × 4
time height lr_pred time_2
<dbl> <dbl> <dbl> <dbl>
1 0 0 80.8 0
2 0.101 3.85 80.9 0.0102
3 0.202 17.7 81.0 0.0408
4 0.303 15.1 81.1 0.0918
Creiamo un altro modello di regressione, usando la nuova feature insieme a quella originale.
lr_height_2 <-
lm(height ~ time + time_2, data = df_2)
E tracciamo la nuova previsione.
df_2 <- df_2 %>%
bind_cols(lr2_pred = predict(lr_height_2))
df_2 %>%
ggplot(aes(x = time, y = height)) +
geom_point() +
geom_line(aes(y = lr2_pred),
col = "blue", lwd = .75) +
theme_classic()
Un miglioramento notevole senza cambiare modello.
Altezza vs. tempo e time_2

Feature Engineering in R