Intervalles de confiance

L’échantillonnage en Python

James Chapman

Curriculum Manager, DataCamp

Intervalles de confiance

« Valeurs à ± un écart type de la moyenne » contient beaucoup de valeurs pour chacune de ces distributions
Nous allons définir un concept lié : l’intervalle de confiance

Prévoir la météo

Rapid City, dans le Dakota du Sud (États-Unis), a la météo la moins prévisible
Notre tâche : prévoir la température maximale de demain

Une carte météo, avec des couleurs indiquant le degré de prévisibilité des régions.

Notre prévision météo

Estimation ponctuelle = 47 °F (8,3 °C)
Plage plausible des maximales = 40 à 54 °F (4,4 à 12,8 °C)

Nous venons de donner un intervalle de confiance !

40 à 54 °F est un intervalle de confiance
Parfois écrit 47 °F (40 °F, 54 °F) ou 47 °F [40 °F, 54 °F]
… ou 47 ± 7 °F
7 °F est la marge d’erreur

Distribution bootstrap de la saveur moyenne

import matplotlib.pyplot as plt
plt.hist(coffee_boot_distn, bins=15)
plt.show()

Un histogramme de la saveur moyenne du café.

Moyenne des rééchantillonnages

import numpy as np
np.mean(coffee_boot_distn)

7.513452892

Un histogramme de la saveur moyenne du café avec la moyenne indiquée par une barre verticale noire.

Moyenne ± un écart type

np.mean(coffee_boot_distn)

7.513452892

np.mean(coffee_boot_distn) - np.std(coffee_boot_distn, ddof=1)

7.497385709174466

np.mean(coffee_boot_distn) + np.std(coffee_boot_distn, ddof=1)

7.529520074825534

Un histogramme des moyennes de saveur du café avec la moyenne et les écarts types indiqués par des barres verticales.

Méthode des quantiles pour l’intervalle de confiance

np.quantile(coffee_boot_distn, 0.025)

7.4817195

np.quantile(coffee_boot_distn, 0.975)

7.5448805

Un segment d’intervalle de confiance à 95 %.

Fonction de répartition cumulée inverse

PDF : la courbe en cloche
CDF : intégrer pour obtenir l’aire sous la cloche
CDF inverse : échanger x et y

Implémenté en Python avec

from scipy.stats import norm
norm.ppf(quantile, loc=0, scale=1)

Fonction de répartition inverse.

Méthode de l’erreur standard pour l’intervalle de confiance

point_estimate = np.mean(coffee_boot_distn)

7.513452892

std_error = np.std(coffee_boot_distn, ddof=1)

0.016067182825533724

from scipy.stats import norm
lower = norm.ppf(0.025, loc=point_estimate, scale=std_error)
upper = norm.ppf(0.975, loc=point_estimate, scale=std_error)
print((lower, upper))

(7.481961792328933, 7.544943991671067)

Passons à la pratique !

L’échantillonnage en Python