Corrélation

Introduction aux statistiques

George Boorman

Curriculum Manager, DataCamp

Relations entre deux variables

scatter_plot_displaying_monthly_gym_costs_vs_cost_of_a_bottle_of_water.png

Introduction aux statistiques

Coefficient de corrélation de Pearson

  • Publié par Karl Pearson en 1896.
  • Mesure la force d'une relation entre deux variables
  • Nombre compris entre moins un et un
  • La valeur absolue correspond à la force de la relation
  • Le signe (+ ou -) correspond au sens de la relation
1 https://royalsocietypublishing.org/doi/10.1098/rsta.1896.0007
Introduction aux statistiques

Relations linéaires

  • Linéaire = changements proportionnels entre les variables dépendantes et indépendantes

scatter_plot_of_gym_vs_water_costs_with_annotations_for_observations_of_one_dollar_water_and_thirty_dollar_gym_costs_plus_one_dollar_fifty_water_and_forty_five_dollar_gym_costs_and_correlation_coefficient_equals_zero_point_three_six.png

Introduction aux statistiques

Valeurs = solidité de la relation

0,99 (relation très forte)

Scatterplot with points very close to an invisible line.png

Introduction aux statistiques

Valeurs = solidité de la relation

0,99 (relation très forte)

Scatterplot with points very close to an invisible line.png

0,75 (relation forte)

Scatterplot with points further from the invisible line.png

Introduction aux statistiques

Valeurs = solidité de la relation

0,56 (relation modérée)

Scatterplot with points even further from the invisible line.png

Introduction aux statistiques

Valeurs = solidité de la relation

0,56 (relation modérée)

Scatterplot with points even further from the invisible line.png

0,21 (relation faible)

Scatterplot with points that look almost totally randomly scattered.png

Introduction aux statistiques

Valeurs = solidité de la relation

0,04 (pas de relation)

Scatterplot with points that look totally randomly scattered.png

  • Connaître la valeur de x ne nous fournit aucune information sur y
Introduction aux statistiques

Signe = direction

0,75 : lorsque x augmente, y augmente

Scatterplot where y increases as x increases.png

-0,75 : lorsque x augmente, y diminue

Scatterplot where y decreases as x increases.png

Introduction aux statistiques

Coûts de la salle de sport vs coûts de l'eau

scatter_plot_displaying_monthly_gym_costs_vs_cost_of_a_bottle_of_water.png

Introduction aux statistiques

Ajout d’une ligne de tendance

scatter_plot_displaying_monthly_gym_costs_vs_cost_of_a_bottle_of_water_with_trendline_and_annotated_p_equals_zero_point_three_five.png

Introduction aux statistiques

Espérance de vie vs coût d'une bouteille d'eau

scater_plot_of_life_expectancy_vs_water_bottle_cost_showing_trendline_and_p_equals_zero_point_six_one.png

Introduction aux statistiques

Corrélation ≠ relation de cause à effet

  • L'augmentation du coût de l'eau entraînera-t-elle une augmentation de l'espérance de vie ?

water_bottles.png

elderly_couple.png

  • Corrélation ≠ relation de cause à effet
1 Crédit d'image : https://unsplash.com/@micheile; https://unsplash.com/@jon_chng
Introduction aux statistiques

Variables confusionnelles

  • Quels autres facteurs pourraient influencer l'espérance de vie ?

    • Une bouteille d'eau coûte plus cher dans les pays à économie forte
    • Ces pays offrent généralement un accès à des soins de santé de haute qualité
  • La vigueur de l'économie pourrait constituer une variable confusionnelle

    • Une variable confusionnelle n'est pas mesurée, mais peut influencer la relation entre nos variables

doctor.jpg

Introduction aux statistiques

Passons à la pratique !

Introduction aux statistiques

Preparing Video For Download...