Cuantificar el ajuste del modelo

Introducción a la regresión en R

Richie Cotton

Data Evangelist at DataCamp

Modelos de bream y perca

Bream

Diagrama de dispersión de masas de bream frente a sus longitudes, con una recta de tendencia, mostrado antes.

Perca

Diagrama de dispersión de masas de perca frente a sus longitudes, con una recta de tendencia, mostrado antes.

Introducción a la regresión en R

Coeficiente de determinación

A veces llamado “r cuadrado” o “R cuadrado”.

la proporción de la varianza de la respuesta que es predecible a partir de la variable explicativa

  • 1 significa ajuste perfecto
  • 0 significa el peor ajuste posible
Introducción a la regresión en R

summary()

Mira el valor llamado “Multiple R-Squared”

mdl_bream <- lm(mass_g ~ length_cm, data = bream)
summary(mdl_bream)
# Some lines of output omitted

Residual standard error: 74.15 on 33 degrees of freedom
Multiple R-squared:  0.8781,    Adjusted R-squared:  0.8744 
F-statistic: 237.6 on 1 and 33 DF,  p-value: < 2.2e-16
Introducción a la regresión en R

glance()

library(broom)
library(dplyr)
mdl_bream %>% 
  glance()
# A tibble: 1 × 12
  r.squared adj.r.squared sigma statistic  p.value    df logLik   AIC   BIC
      <dbl>         <dbl> <dbl>     <dbl>    <dbl> <dbl>  <dbl> <dbl> <dbl>
1     0.878         0.874  74.2      238. 1.22e-16     1  -199.  405.  409.
# ... with 3 more variables: deviance <dbl>, df.residual <int>, nobs <int>
mdl_bream %>% 
  glance() %>% 
  pull(r.squared)
0.8780627
Introducción a la regresión en R

Es la correlación al cuadrado

bream %>% 
  summarize(
    coeff_determination = cor(length_cm, mass_g) ^ 2
  )
  coeff_determination
1           0.8780627
Introducción a la regresión en R

Error estándar residual (RSE)

una diferencia “típica” entre una predicción y la respuesta observada

Tiene la misma unidad que la variable de respuesta.

Introducción a la regresión en R

summary() otra vez

Mira el valor llamado “Residual standard error”

summary(mdl_bream)
# Some lines of output omitted

Residual standard error: 74.15 on 33 degrees of freedom
Multiple R-squared:  0.8781,    Adjusted R-squared:  0.8744 
F-statistic: 237.6 on 1 and 33 DF,  p-value: < 2.2e-16
Introducción a la regresión en R

glance() otra vez

library(broom)
library(dplyr)
mdl_bream %>% 
  glance()
# A tibble: 1 x 11
  r.squared adj.r.squared sigma statistic  p.value    df logLik   AIC   BIC deviance df.residual
      <dbl>         <dbl> <dbl>     <dbl>    <dbl> <int>  <dbl> <dbl> <dbl>    <dbl>       <int>
1     0.878         0.874  74.2      238. 1.22e-16     2  -199.  405.  409.  181452.          33
mdl_bream %>% 
  glance() %>% 
  pull(sigma)
74.15224
Introducción a la regresión en R

Calcular el RSE: residuos al cuadrado

bream %>% 
  mutate(
    residuals_sq = residuals(mdl_bream) ^ 2
  )
  species mass_g length_cm residuals_sq
1   Bream    242      23.2     138.9571
2   Bream    290      24.0     260.7586
3   Bream    340      23.9    5126.9926
4   Bream    363      26.3    1318.9197
5   Bream    430      26.5     390.9743
6   Bream    450      26.8     547.9380
...
Introducción a la regresión en R

Calcular el RSE: suma de residuos al cuadrado

bream %>% 
  mutate(
    residuals_sq = residuals(mdl_bream) ^ 2
  ) %>% 
  summarize(
    resid_sum_of_sq = sum(residuals_sq)
  )
  resid_sum_of_sq
1        181452.3
Introducción a la regresión en R

Calcular el RSE: grados de libertad

Los grados de libertad son el número de observaciones menos el número de coeficientes del modelo.

bream %>% 
  mutate(
    residuals_sq = residuals(mdl_bream) ^ 2
  ) %>% 
  summarize(
    resid_sum_of_sq = sum(residuals_sq),
    deg_freedom = n() - 2
  )
  resid_sum_of_sq deg_freedom
1        181452.3          33
Introducción a la regresión en R

Calcular el RSE: raíz de la razón

bream %>% 
  mutate(
    residuals_sq = residuals(mdl_bream) ^ 2
  ) %>% 
  summarize(
    resid_sum_of_sq = sum(residuals_sq),
    deg_freedom = n() - 2,
    rse = sqrt(resid_sum_of_sq / deg_freedom)
  )
  resid_sum_of_sq deg_freedom      rse
1        181452.3          33 74.15224
Introducción a la regresión en R

Interpretar el RSE

mdl_bream tiene un RSE de 74.

La diferencia entre masas predichas y observadas de bream suele ser de unos 74 g.

Introducción a la regresión en R

Error cuadrático medio (RMSE)

Error estándar residual

bream %>% 
  mutate(
    residuals_sq = residuals(mdl_bream) ^ 2
  ) %>% 
  summarize(
    resid_sum_of_sq = sum(residuals_sq),
    deg_freedom = n() - 2,
    rse = sqrt(resid_sum_of_sq / deg_freedom)
  )

Error cuadrático medio (RMSE)

bream %>% 
  mutate(
    residuals_sq = residuals(mdl_bream) ^ 2
  ) %>% 
  summarize(
    resid_sum_of_sq = sum(residuals_sq),
    n_obs = n(),
    rmse = sqrt(resid_sum_of_sq / n_obs)
  )
Introducción a la regresión en R

¡Vamos a practicar!

Introducción a la regresión en R

Preparing Video For Download...