Intervalles de confiance

L’échantillonnage en Python

James Chapman

Curriculum Manager, DataCamp

Intervalles de confiance

  • « Valeurs à ± un écart type de la moyenne » contient beaucoup de valeurs pour chacune de ces distributions
  • Nous allons définir un concept lié : l’intervalle de confiance
L’échantillonnage en Python

Prévoir la météo

  • Rapid City, dans le Dakota du Sud (États-Unis), a la météo la moins prévisible
  • Notre tâche : prévoir la température maximale de demain

Une carte météo, avec des couleurs indiquant le degré de prévisibilité des régions.

L’échantillonnage en Python

Notre prévision météo

  • Estimation ponctuelle = 47 °F (8,3 °C)
  • Plage plausible des maximales = 40 à 54 °F (4,4 à 12,8 °C)
L’échantillonnage en Python

Nous venons de donner un intervalle de confiance !

  • 40 à 54 °F est un intervalle de confiance
  • Parfois écrit 47 °F (40 °F, 54 °F) ou 47 °F [40 °F, 54 °F]
  • … ou 47 ± 7 °F
  • 7 °F est la marge d’erreur
L’échantillonnage en Python

Distribution bootstrap de la saveur moyenne

import matplotlib.pyplot as plt
plt.hist(coffee_boot_distn, bins=15)
plt.show()

Un histogramme de la saveur moyenne du café.

L’échantillonnage en Python

Moyenne des rééchantillonnages

import numpy as np
np.mean(coffee_boot_distn)
7.513452892

Un histogramme de la saveur moyenne du café avec la moyenne indiquée par une barre verticale noire.

L’échantillonnage en Python

Moyenne ± un écart type

np.mean(coffee_boot_distn)
7.513452892
np.mean(coffee_boot_distn) - np.std(coffee_boot_distn, ddof=1)
7.497385709174466
np.mean(coffee_boot_distn) + np.std(coffee_boot_distn, ddof=1)
7.529520074825534

Un histogramme des moyennes de saveur du café avec la moyenne et les écarts types indiqués par des barres verticales.

L’échantillonnage en Python

Méthode des quantiles pour l’intervalle de confiance

np.quantile(coffee_boot_distn, 0.025)
7.4817195
np.quantile(coffee_boot_distn, 0.975)
7.5448805

Un segment d’intervalle de confiance à 95 %.

L’échantillonnage en Python

Fonction de répartition cumulée inverse

  • PDF : la courbe en cloche
  • CDF : intégrer pour obtenir l’aire sous la cloche
  • CDF inverse : échanger x et y

Implémenté en Python avec

from scipy.stats import norm
norm.ppf(quantile, loc=0, scale=1)

Fonction de répartition inverse.

L’échantillonnage en Python

Méthode de l’erreur standard pour l’intervalle de confiance

point_estimate = np.mean(coffee_boot_distn)
7.513452892
std_error = np.std(coffee_boot_distn, ddof=1)
0.016067182825533724
from scipy.stats import norm
lower = norm.ppf(0.025, loc=point_estimate, scale=std_error)
upper = norm.ppf(0.975, loc=point_estimate, scale=std_error)
print((lower, upper))
(7.481961792328933, 7.544943991671067)
L’échantillonnage en Python

Passons à la pratique !

L’échantillonnage en Python

Preparing Video For Download...