Mises en garde sur les corrélations

Introduction aux statistiques en Python

Maggie Matsui

Content Developer, DataCamp

Relations non linéaires

diagramme en nuages de points de variables ayant une relation quadratique

$$r = 0,18$$

Relations non linéaires

Ce que nous voyons :

diagramme nuage de points des variables ayant une relation quadratique avec une ligne de tendance quadratique

Ce que le coefficient de corrélation voit :

diagramme en nuage de points des variables ayant une relation quadratique avec une ligne de tendance linéaire

La corrélation ne tient compte que des relations linéaires

La corrélation ne doit pas être utilisée aveuglément

df['x'].corr(df['y'])

0.081094

Visualisez toujours vos données

diagramme en nuages de points des variables ayant une relation quadratique

Données sur le sommeil des mammifères

print(msleep)

                 name       genus   vore         order  ... sleep_cycle  awake  brainwt   bodywt
1             Cheetah    Acinonyx  carni     Carnivora  ...         NaN   11.9      NaN   50.000
2          Owl monkey       Aotus   omni      Primates  ...         NaN    7.0  0.01550    0.480
3     Mountain beaver  Aplodontia  herbi      Rodentia  ...         NaN    9.6      NaN    1.350
4 Greater short-ta...     Blarina   omni  Soricomorpha  ...    0.133333    9.1  0.00029    0.019
5                 Cow         Bos  herbi  Artiodactyla  ...    0.666667   20.0  0.42300  600.000
..                ...         ...    ...           ...  ...         ...    ...      ...      ...
79         Tree shrew      Tupaia   omni    Scandentia  ...    0.233333   15.1  0.00250    0.104
80 Bottle-nosed do...    Tursiops  carni       Cetacea  ...         NaN   18.8      NaN  173.330
81              Genet     Genetta  carni     Carnivora  ...         NaN   17.7  0.01750    2.000
82         Arctic fox      Vulpes  carni     Carnivora  ...         NaN   11.5  0.04450    3.380
83            Red fox      Vulpes  carni     Carnivora  ...    0.350000   14.2  0.05040    4.230

Poids corporel en fonction du temps d’éveil

Diagramme en nuages de points du poids corporel en fonction du temps d’éveil

msleep['bodywt'].corr(msleep['awake'])

0.3119801

Distribution du poids corporel

Histogramme de la variable bodywt

Transformation logarithmique

msleep['log_bodywt'] = np.log(msleep['bodywt'])


sns.lmplot(x='log_bodywt',
           y='awake',
           data=msleep,
           ci=None)
plt.show()

msleep['log_bodywt'].corr(msleep['awake'])

0.5687943

Diagramme en nuages de points du logarithme de bodywt en fonction de l’éveil

Autres transformations

Transformation logarithmique (log(x))
Transformation en racine carrée (sqrt(x))
Transformation inverse (1 / x)
Les combinaisons de ces éléments, par exemple :
- log(x) et log(y)
- sqrt(x) et 1 / y

Pourquoi utiliser une transformation ?

Certaines méthodes statistiques s’appuient sur le fait que les variables ont une relation linéaire
- Coefficient de corrélation
- Régression linéaire

Introduction à la modélisation linéaire en Python

La corrélation n’implique pas la causalité

x est en corrélation avec y ne signifie pas x cause y

Diagramme en nuages de points de la consommation de margarine par habitant aux États-Unis en fonction du taux de divorce dans le Maine. Les variables sont fortement corrélées avec un coefficient de corrélation de 0,99

Confusion

La consommation de café (x) indique le cancer du poumon (y)

Confusion

La consommation de café (x) indique le cancer du poumon (y) avec le tabagisme (facteur de confusion) ci-dessus

Confusion

La consommation de café (x) indique le cancer du poumon (y) avec le tabagisme (facteur de confusion). Double flèche entre le tabagisme et la consommation de café, étiquetée « association ».

Confusion

La consommation de café (x) indique le cancer du poumon (y) avec le tabagisme (facteur de confusion). Double flèche entre le tabagisme et la consommation de café, étiquetée « association ». Flèche entre le tabagisme et le cancer du poumon, étiquetée « causalité »

Confusion

Consommation de café (x) avec double flèche vers le cancer du poumon (y) étiquetée « association ». Double flèche entre le tabagisme et la consommation de café, étiquetée « association ». Flèche entre le tabagisme et le cancer du poumon, étiquetée « causalité ».

Les vacances (x) indiquent des ventes au détail (y). Les offres spéciales (facteur de confusion) ont une flèche double vers les vacances et une flèche simple vers les ventes au détail.

Passons à la pratique !

Introduction aux statistiques en Python