Transforming inputs before modeling

Supervised Learning in R: Regression

Nina Zumel and John Mount

Win-Vector LLC

Why To Transform Input Variables

Domain knowledge/synthetic variables
- $Intelligence \sim \frac{mass.brain}{mass.body^{2/3}}$

Domain knowledge/synthetic variables
- $Intelligence \sim \frac{mass.brain}{mass.body^{2/3}}$
Pragmatic reasons
- Log transform to reduce dynamic range
- Log transform because meaningful changes in variable are multiplicative

Domain knowledge/synthetic variables
- $Intelligence \sim \frac{mass.brain}{mass.body^{2/3}}$
Pragmatic reasons
- Log transform to reduce dynamic range
- Log transform because meaningful changes in variable are multiplicative
- $y$ approximately linear in $f(x)$ rather than in $x$

Which is best?

I(): treat an expression literally (not as an interaction)

Linear, Quadratic, and Cubic models

mod_lin <- lm(anx ~ hassles, hassleframe)
summary(mod_lin)$r.squared

0.5334847

mod_quad <- lm(anx ~ I(hassles^2), hassleframe)
summary(mod_quad)$r.squared

0.6241029

mod_tritic <- lm(anx ~ I(hassles^3), hassleframe)
summary(mod_tritic)$r.squared

0.6474421

Use cross-validation to evaluate the models

Supervised Learning in R: Regression