Correlación

Introducción a la estadística en R

Maggie Matsui

Content Developer, DataCamp

Relaciones entre dos variables

Gráfico de dispersión de los hábitos de sueño de los mamíferos que muestra el sueño total al día frente al sueño REM al día

  • x = variable independiente/explicativa
  • y = variable dependiente/respuesta
Introducción a la estadística en R

Coeficiente de correlación

  • Cuantifica la relación lineal entre dos variables
  • Número entre -1 y 1
  • La magnitud corresponde a la fuerza de la relación
  • El signo (+ o -) corresponde a la dirección de la relación
Introducción a la estadística en R

Magnitud = fuerza de la relación

0,99 (relación muy fuerte)

Diagrama de dispersión con puntos muy próximos a una línea invisible

Introducción a la estadística en R

Magnitud = fuerza de la relación

0,99 (relación muy fuerte)

Diagrama de dispersión con puntos muy próximos a una línea invisible

0,75 (relación fuerte)

Diagrama de dispersión con puntos más alejados de la línea invisible

Introducción a la estadística en R

Magnitud = fuerza de la relación

0,56 (relación moderada)

Diagrama de dispersión con puntos aún más alejados de la línea invisible

Introducción a la estadística en R

Magnitud = fuerza de la relación

0,56 (relación moderada)

Diagrama de dispersión con puntos aún más alejados de la línea invisible

0,21 (relación débil)

Diagrama de dispersión con puntos que parecen casi totalmente dispersos al azar

Introducción a la estadística en R

Magnitud = fuerza de la relación

0,04 (sin relación)

Diagrama de dispersión con puntos que parecen totalmente dispersos al azar

  • Conocer el valor de x no nos dice nada sobre y
Introducción a la estadística en R

Signo = dirección

0,75: a medida que aumenta el valor de x, aumenta el valor de y.

Diagrama de dispersión en el que y aumenta al aumentar x

-0,75: a medida que aumenta tu valor de « x », disminuye tu valor de « y ».

Diagrama de dispersión en el que y disminuye al aumentar x

Introducción a la estadística en R

Visualizar las relaciones

ggplot(df, aes(x, y)) +
  geom_point()

Diagrama de dispersión en el que y disminuye a medida que x aumenta

Introducción a la estadística en R

Añadir una línea de tendencia

ggplot(df, aes(x, y)) +
  geom_point() +

geom_smooth(method = "lm", se = FALSE)

Diagrama de dispersión en el que y disminuye a medida que x aumenta con línea de tendencia

Introducción a la estadística en R

Calcular correlación

cor(df$x, df$y)
-0.7472765

 

cor(df$y, df$x)
-0.7472765
Introducción a la estadística en R

Correlación con valores faltantes

df$x
-3.2508382  -9.1599807   3.4515013   4.1505899          NA   11.9806140   ...
cor(df$x, df$y)
NA
cor(df$x, df$y, use = "pairwise.complete.obs")
-0.7471757
Introducción a la estadística en R

Muchas formas de calcular la correlación

  • Utilizada en este curso: correlación producto-momento de Pearson   ($r$)
    • Más frecuentes
    • $\bar{x} =$ media de $x$

$$ r =\frac{\sum ^n _{i=1}(x_i - \bar{x})(y_i - \bar{y})}{\sqrt{\sum ^n _{i=1}(x_i - \bar{x})^2} \sqrt{\sum ^n _{i=1}(y_i - \bar{y})^2}} $$

  • Variaciones de esta fórmula:
    • Tau de Kendall
    • Rho de Spearman
Introducción a la estadística en R

¡Vamos a practicar!

Introducción a la estadística en R

Preparing Video For Download...