Correlación

Introducción a la estadística en Python

Maggie Matsui

Content Developer, DataCamp

Relaciones entre dos variables

Gráfico de dispersión de los hábitos de sueño de los mamíferos que muestra el sueño total al día frente al sueño REM al día

  • x = variable independiente/explicativa
  • y = variable dependiente/respuesta
Introducción a la estadística en Python

Coeficiente de correlación

  • Cuantifica la relación lineal entre dos variables
  • Número entre -1 y 1
  • La magnitud corresponde a la fuerza de la relación
  • El signo (+ o -) corresponde a la dirección de la relación
Introducción a la estadística en Python

Magnitud = fuerza de la relación

0,99 (relación muy fuerte)

Diagrama de dispersión con puntos muy próximos a una línea invisible

Introducción a la estadística en Python

Magnitud = fuerza de la relación

0,99 (relación muy fuerte)

Diagrama de dispersión con puntos muy próximos a una línea invisible

              0,75 (relación fuerte)

Diagrama de dispersión con puntos más alejados de la línea invisible

Introducción a la estadística en Python

Magnitud = fuerza de la relación

0,56 (relación moderada)

Diagrama de dispersión con puntos aún más alejados de la línea invisible

Introducción a la estadística en Python

Magnitud = fuerza de la relación

0,56 (relación moderada)

Diagrama de dispersión con puntos aún más alejados de la línea invisible

             0,21 (relación débil)

Diagrama de dispersión con puntos que parecen casi totalmente dispersos al azar

Introducción a la estadística en Python

Magnitud = fuerza de la relación

0,04 (sin relación)

Diagrama de dispersión con puntos que parecen totalmente dispersos al azar

  • Conocer el valor de x no nos dice nada sobre y
Introducción a la estadística en Python

Signo = dirección

0,75:  cuando aumenta x, aumenta y

Diagrama de dispersión en el que y aumenta al aumentar x

-0.75:  cuando aumenta x, disminuye y

Diagrama de dispersión en el que y disminuye al aumentar x

Introducción a la estadística en Python

Visualizar las relaciones

import seaborn as sns

sns.scatterplot(x="sleep_total", y="sleep_rem", data=msleep)
plt.show()

Gráfico de dispersión de sleep_rem frente a sleep_total

Introducción a la estadística en Python

Añadir una línea de tendencia

import seaborn as sns
sns.lmplot(x="sleep_total", y="sleep_rem", data=msleep, ci=None)

plt.show()

Gráfico de dispersión de sleep_rem frente a sleep_total con línea de tendencia lineal

Introducción a la estadística en Python

Calcular correlación

msleep['sleep_total'].corr(msleep['sleep_rem'])
0.751755

 

msleep['sleep_rem'].corr(msleep['sleep_total'])
0.751755
Introducción a la estadística en Python

Muchas formas de calcular la correlación

  • Utilizada en este curso: correlación producto-momento de Pearson   ($r$)
    • Más frecuentes
    • $\bar{x} =$ media de $x$
    • $\sigma_x =$ desviación típica de $x$

$$ r = \frac{1}{n - 1} \sum_{i=1}^{n} \frac{(x_i - \bar{x})(y_i - \bar{y})}{\sigma_x \cdot \sigma_y}$$

  • Variaciones de esta fórmula:
    • Tau de Kendall
    • Rho de Spearman
Introducción a la estadística en Python

¡Vamos a practicar!

Introducción a la estadística en Python

Preparing Video For Download...