Regresión a la media

Introducción a la regresión con statsmodels en Python

Maarten Van den Broeck

Content Developer at DataCamp

El concepto

  • Respuesta = valor ajustado + residual
  • «Lo que explicas» + «lo que no pudiste explicar»
  • Los residuales existen por fallos del modelo y por aleatoriedad fundamental
  • Los casos extremos suelen deberse al azar
  • La regresión a la media implica que los casos extremos no persisten en el tiempo
Introducción a la regresión con statsmodels en Python

Conjunto de datos de Pearson: padre e hijo

  • 1078 pares padre/hijo
  • ¿Los padres altos tienen hijos altos?
father_height_cm son_height_cm
165.2 151.8
160.7 160.6
165.0 160.9
167.0 159.5
155.3 163.3
... ...
1 Adaptado de https://www.rdocumentation.org/packages/UsingR/topics/father.son
Introducción a la regresión con statsmodels en Python

Diagrama de dispersión

fig = plt.figure()
sns.scatterplot(x="father_height_cm",
                y="son_height_cm",
                data=father_son)
plt.axline(xy1=(150, 150),
           slope=1,
           linewidth=2,
           color="green")
plt.axis("equal")
plt.show()

Diagrama de dispersión de la altura de los hijos frente a la de los padres, con una línea donde padre e hijo tendrían la misma altura. A medida que los padres son más altos, también lo son los hijos.

Introducción a la regresión con statsmodels en Python

Añadir una recta de regresión

fig = plt.figure()

sns.regplot(x="father_height_cm",
            y="son_height_cm",
            data=father_son,
            ci = None, 
            line_kws={"color": "black"})

plt.axline(xy1 = (150, 150),
           slope=1,
           linewidth=2,
           color="green")

plt.axis("equal")
plt.show()

Diagrama de dispersión de la altura de los hijos frente a la de los padres, con una recta de tendencia lineal. La recta es menos empinada que la línea donde padre e hijo tendrían la misma altura.

Introducción a la regresión con statsmodels en Python

Ejecutar una regresión

mdl_son_vs_father = ols("son_height_cm ~ father_height_cm",
                        data = father_son).fit()
print(mdl_son_vs_father.params)
Intercept           86.071975
father_height_cm     0.514093
dtype: float64
Introducción a la regresión con statsmodels en Python

Hacer predicciones

really_tall_father = pd.DataFrame(
  {"father_height_cm": [190]})

mdl_son_vs_father.predict(
  really_tall_father)
183.7
really_short_father = pd.DataFrame(
  {"father_height_cm": [150]})

mdl_son_vs_father.predict(
  really_short_father)
163.2
Introducción a la regresión con statsmodels en Python

¡Vamos a practicar!

Introducción a la regresión con statsmodels en Python

Preparing Video For Download...