Advertencias sobre la correlación

Introducción a la estadística en Python

Maggie Matsui

Content Developer, DataCamp

Relaciones no lineales

diagrama de dispersión de variables con una relación cuadrática

$$r = 0.18$$

Introducción a la estadística en Python

Relaciones no lineales

Lo que vemos:

diagrama de dispersión de variables con una relación cuadrática con línea de tendencia cuadrática

Lo que ve el coeficiente de correlación:

diagrama de dispersión de variables con una relación cuadrática con una línea de tendencia lineal

Introducción a la estadística en Python

La correlación solo tiene en cuenta las relaciones lineales

La correlación no debe utilizarse a ciegas

df['x'].corr(df['y'])
0.081094

Visualiza siempre tus datos

diagrama de dispersión de variables con una relación cuadrática

Introducción a la estadística en Python

Datos sobre el sueño de los mamíferos

print(msleep)
                 name       genus   vore         order  ... sleep_cycle  awake  brainwt   bodywt
1             Cheetah    Acinonyx  carni     Carnivora  ...         NaN   11.9      NaN   50.000
2          Owl monkey       Aotus   omni      Primates  ...         NaN    7.0  0.01550    0.480
3     Mountain beaver  Aplodontia  herbi      Rodentia  ...         NaN    9.6      NaN    1.350
4 Greater short-ta...     Blarina   omni  Soricomorpha  ...    0.133333    9.1  0.00029    0.019
5                 Cow         Bos  herbi  Artiodactyla  ...    0.666667   20.0  0.42300  600.000
..                ...         ...    ...           ...  ...         ...    ...      ...      ...
79         Tree shrew      Tupaia   omni    Scandentia  ...    0.233333   15.1  0.00250    0.104
80 Bottle-nosed do...    Tursiops  carni       Cetacea  ...         NaN   18.8      NaN  173.330
81              Genet     Genetta  carni     Carnivora  ...         NaN   17.7  0.01750    2.000
82         Arctic fox      Vulpes  carni     Carnivora  ...         NaN   11.5  0.04450    3.380
83            Red fox      Vulpes  carni     Carnivora  ...    0.350000   14.2  0.05040    4.230
Introducción a la estadística en Python

Peso corporal frente a tiempo de vigilia

Diagrama de dispersión del peso corporal frente al tiempo de vigilia

msleep['bodywt'].corr(msleep['awake'])
0.3119801
Introducción a la estadística en Python

Distribución del peso corporal

Histograma de la variable bodywt

Introducción a la estadística en Python

Transformación logarítmica

msleep['log_bodywt'] = np.log(msleep['bodywt'])

sns.lmplot(x='log_bodywt', y='awake', data=msleep, ci=None) plt.show()
msleep['log_bodywt'].corr(msleep['awake'])
0.5687943

Diagrama de dispersión del log del peso corporal frente al tiempo de vigilia

Introducción a la estadística en Python

Otras transformaciones

  • Transformación logarítmica (log(x))
  • Transformación de raíz cuadrada (sqrt(x))
  • Transformación recíproca (1 / x)

  • Combinaciones de estas, por ejemplo:

    • log(x) y log(y)
    • sqrt(x) y 1 / y
Introducción a la estadística en Python

¿Por qué utilizar una transformación?

  • Algunos métodos estadísticos se basan en que las variables tienen una relación lineal
    • Coeficiente de correlación
    • Regresión lineal

 

Introducción al modelado lineal en Python

Introducción a la estadística en Python

La correlación no implica causalidad

                Que x esté correlacionado con y no significa que x cause y

Diagrama de dispersión del consumo de margarina per cápita en EE. UU frente a la tasa de divorcios en Maine. Las variables están muy correlacionadas, con un coeficiente de correlación de 0,99

Introducción a la estadística en Python

Confusión

  El consumo de café (x) apunta al cáncer de pulmón (y)

Introducción a la estadística en Python

Confusión

  El consumo de café (x) apunta al cáncer de pulmón (y) con el tabaquismo (factor de confusión) arriba

Introducción a la estadística en Python

Confusión

  El consumo de café (x) apunta al cáncer de pulmón (y) con el tabaquismo (factor de confusión). Doble flecha entre fumar y beber café, etiquetada como "asociación".

Introducción a la estadística en Python

Confusión

  El consumo de café (x) apunta al cáncer de pulmón (y) con el tabaquismo (factor de confusión). Doble flecha entre fumar y beber café, etiquetada como "asociación". Flecha del tabaquismo al cáncer de pulmón etiquetada como "causalidad"

Introducción a la estadística en Python

Confusión

  Consumo de café (x) con doble flecha hacia el cáncer de pulmón (y) etiquetado como "asociación". Doble flecha entre fumar y beber café, etiquetada como "asociación". Flecha del tabaquismo al cáncer de pulmón etiquetada de "causalidad".

  Las vacaciones (x) apuntan a las ventas al por menor (y). Las ofertas especiales (factor de confusión) tienen doble flecha hacia las vacaciones y una flecha hacia las ventas al por menor.

Introducción a la estadística en Python

¡Vamos a practicar!

Introducción a la estadística en Python

Preparing Video For Download...