Konfidenzintervalle

Stichprobenziehung in Python

James Chapman

Curriculum Manager, DataCamp

Konfidenzintervalle

  • „Werte innerhalb einer Standardabweichung um den Mittelwert“ enthalten viele Werte jeder Verteilung
  • Wir definieren ein verwandtes Konzept: das Konfidenzintervall
Stichprobenziehung in Python

Wetter vorhersagen

  • Rapid City, South Dakota (USA) hat das unberechenbarste Wetter
  • Unsere Aufgabe: die Höchsttemperatur für morgen dort vorhersagen

Eine Wetterkarte, Farben zeigen die Vorhersagbarkeit der Regionen.

Stichprobenziehung in Python

Unsere Wetterprognose

  • Punkt-Schätzer = 47°F (8,3°C)
  • Bereich plausibler Höchstwerte = 40 bis 54°F (4,4 bis 12,8°C)
Stichprobenziehung in Python

Wir haben gerade ein Konfidenzintervall berichtet!

  • 40 bis 54°F ist ein Konfidenzintervall
  • Auch als 47°F (40°F, 54°F) oder 47°F [40°F, 54°F]
  • ... oder 47 ± 7°F
  • 7°F ist die Fehlertoleranz (Margin of Error)
Stichprobenziehung in Python

Bootstrap-Verteilung des mittleren Geschmacks

import matplotlib.pyplot as plt
plt.hist(coffee_boot_distn, bins=15)
plt.show()

Ein Histogramm des mittleren Kaffeegeschmacks.

Stichprobenziehung in Python

Mittelwert der Resamples

import numpy as np
np.mean(coffee_boot_distn)
7.513452892

Ein Histogramm des mittleren Kaffeegeschmacks, mit dem Mittelwert als schwarze vertikale Linie markiert.

Stichprobenziehung in Python

Mittelwert ± eine Standardabweichung

np.mean(coffee_boot_distn)
7.513452892
np.mean(coffee_boot_distn) - np.std(coffee_boot_distn, ddof=1)
7.497385709174466
np.mean(coffee_boot_distn) + np.std(coffee_boot_distn, ddof=1)
7.529520074825534

Ein Histogramm der Kaffee-Mittelwerte mit vertikalen Linien für Mittelwert und Standardabweichungen.

Stichprobenziehung in Python

Quantilmethode für Konfidenzintervalle

np.quantile(coffee_boot_distn, 0.025)
7.4817195
np.quantile(coffee_boot_distn, 0.975)
7.5448805

Eine 95-Prozent-Konfidenzintervall-Linie.

Stichprobenziehung in Python

Inverse kumulative Verteilungsfunktion

  • PDF: Die Glockenkurve
  • CDF: integrieren → Fläche unter der Glocke
  • Inv. CDF: x- und y-Achse tauschen

In Python mit

from scipy.stats import norm
norm.ppf(quantile, loc=0, scale=1)

Inverse kumulative Verteilungsfunktion.

Stichprobenziehung in Python

Standardfehler-Methode für Konfidenzintervall

point_estimate = np.mean(coffee_boot_distn)
7.513452892
std_error = np.std(coffee_boot_distn, ddof=1)
0.016067182825533724
from scipy.stats import norm
lower = norm.ppf(0.025, loc=point_estimate, scale=std_error)
upper = norm.ppf(0.975, loc=point_estimate, scale=std_error)
print((lower, upper))
(7.481961792328933, 7.544943991671067)
Stichprobenziehung in Python

Lass uns üben!

Stichprobenziehung in Python

Preparing Video For Download...