Transformación de variables

Introducción a la regresión en R

Richie Cotton

Data Evangelist at DataCamp

Conjunto de datos de percas

library(dplyr)

perch <- fish %>%
  filter(species == "Perch")
species mass_g length_cm
Perch 5.9 7.5
Perch 32.0 12.5
Perch 40.0 13.8
Perch 51.5 15.0
Perch 70.0 15.7
... ... ...
Introducción a la regresión en R

No es una relación lineal

ggplot(perch, aes(length_cm, mass_g)) +
  geom_point() +
  geom_smooth(method = "lm", se = FALSE)

Diagrama de dispersión de masas de perca vs. su longitud, con línea de tendencia. Las percas aumentan de peso más que linealmente al alargarse, creando una curva ascendente.

Introducción a la regresión en R

Brecas vs. percas

Varias brecas nadando. Las brecas son bastante planas.

Varias percas nadando. Las percas son bastante redondeadas.

Introducción a la regresión en R

Gráfico: masa vs. longitud al cubo

ggplot(perch, aes(length_cm ^ 3, mass_g)) +
  geom_point() +
  geom_smooth(method = "lm", se = FALSE)

Diagrama de dispersión de masas de perca vs. su longitud al cubo, con línea de tendencia. Tras la transformación, los puntos quedan cerca de la línea.

Introducción a la regresión en R

Modelado: masa vs. longitud al cubo

mdl_perch <- lm(mass_g ~ I(length_cm ^ 3), data = perch)
Call:
lm(formula = mass_g ~ I(length_cm^3), data = perch)

Coefficients:
   (Intercept)  I(length_cm^3)  
       -0.1175          0.0168
Introducción a la regresión en R

Predicción: masa vs. longitud al cubo

explanatory_data <- tibble(
  length_cm = seq(10, 40, 5)
)
prediction_data <- explanatory_data %>%
  mutate(
    mass_g = predict(mdl_perch, explanatory_data)
  )
# A tibble: 7 x 2
  length_cm mass_g
      <dbl>  <dbl>
1        10   16.7
2        15   56.6
3        20  134. 
4        25  262. 
5        30  453. 
6        35  720. 
7        40 1075.
Introducción a la regresión en R

Gráfico: masa vs. longitud al cubo

ggplot(perch, aes(length_cm ^ 3, mass_g)) +
  geom_point() +
  geom_smooth(method = "lm", se = FALSE) +
  geom_point(data = prediction_data, color = "blue")

Diagrama de dispersión de masas vs. longitud al cubo, con línea de tendencia, anotado con puntos de predict(). Los puntos siguen exactamente la línea.

ggplot(perch, aes(length_cm, mass_g)) +
  geom_point() +
  geom_smooth(method = "lm", se = FALSE) +
  geom_point(data = prediction_data, color = "blue")

Diagrama de dispersión de masas vs. longitud, con línea de tendencia, anotado con puntos de predict(). Los puntos no siguen la línea pero sí la curvatura de los datos.

Introducción a la regresión en R

Conjunto de datos de publicidad en Facebook

Cómo funciona la publicidad

  1. Pagas a Facebook para mostrar anuncios.
  2. La gente ve los anuncios ("impresiones").
  3. Algunas personas hacen clic.

 

  • 936 filas
  • Cada fila es 1 anuncio
spent_usd n_impressions n_clicks
1.43 7350 1
1.82 17861 2
1.25 4259 1
1.29 4133 1
4.77 15615 3
... ... ...
Introducción a la regresión en R

Gráfico apretado

ggplot(
  ad_conversion, 
  aes(spent_usd, n_impressions)
) +
  geom_point() +
  geom_smooth(method = "lm", se = FALSE)

Diagrama de dispersión de impresiones vs. gasto en anuncios, con línea de tendencia. La mayoría de puntos se amontonan abajo a la izquierda.

Introducción a la regresión en R

Raíz cuadrada vs. raíz cuadrada

ggplot(
  ad_conversion, 
  aes(sqrt(spent_usd), sqrt(n_impressions))
) +
  geom_point() +
  geom_smooth(method = "lm", se = FALSE)

Diagrama de dispersión de la raíz cuadrada de impresiones vs. la raíz cuadrada del gasto, con línea de tendencia. Ahora los puntos se reparten mejor por el gráfico.

Introducción a la regresión en R

Modelado y predicción

mdl_ad <- lm(
  sqrt(n_impressions) ~ sqrt(spent_usd), 
  data = ad_conversion
)
explanatory_data <- tibble(
  spent_usd = seq(0, 600, 100)
)
prediction_data <- explanatory_data %>% 
  mutate(
    sqrt_n_impressions = predict(
      mdl_ad, explanatory_data
    ),
    n_impressions = sqrt_n_impressions ^ 2
  )
# A tibble: 7 x 3
  spent_usd sqrt_n_impressions n_impressions
      <dbl>              <dbl>         <dbl>
1         0               15.3          235.
2       100              598.        357289.
3       200              839.        703890.
4       300             1024.       1048771.
5       400             1180.       1392762.
6       500             1318.       1736184.
7       600             1442.       2079202.
Introducción a la regresión en R

¡Vamos a practicar!

Introducción a la regresión en R

Preparing Video For Download...