Betrouwbaarheidsintervallen

Steekproeven in Python

James Chapman

Curriculum Manager, DataCamp

Betrouwbaarheidsintervallen

  • “Waarden binnen één standaarddeviatie van het gemiddelde” bevat veel waarden uit elk van deze verdelingen
  • We definiëren een verwant concept: een betrouwbaarheidsinterval
Steekproeven in Python

Het weer voorspellen

  • Rapid City, South Dakota (VS) heeft het minst voorspelbare weer
  • Onze taak: de maximumtemperatuur voor morgen voorspellen

Een weerkaart met kleuren die aangeven hoe voorspelbaar regio’s zijn.

Steekproeven in Python

Onze weersvoorspelling

  • Puntinschatting = 47°F (8,3°C)
  • Reeks plausibele maxima = 40–54°F (4,4–12,8°C)
Steekproeven in Python

We rapporteerden net een betrouwbaarheidsinterval!

  • 40–54°F is een betrouwbaarheidsinterval
  • Soms geschreven als 47°F (40°F, 54°F) of 47°F [40°F, 54°F]
  • ... of 47 ± 7°F
  • 7°F is de foutmarge
Steekproeven in Python

Bootstrapverdeling van de gemiddelde smaak

import matplotlib.pyplot as plt
plt.hist(coffee_boot_distn, bins=15)
plt.show()

Een histogram van gemiddelde koffiesmaak.

Steekproeven in Python

Gemiddelde van de resamples

import numpy as np
np.mean(coffee_boot_distn)
7.513452892

Een histogram van gemiddelde koffiesmaak met het gemiddelde aangeduid door een verticale zwarte balk.

Steekproeven in Python

Gemiddelde plus of min één standaarddeviatie

np.mean(coffee_boot_distn)
7.513452892
np.mean(coffee_boot_distn) - np.std(coffee_boot_distn, ddof=1)
7.497385709174466
np.mean(coffee_boot_distn) + np.std(coffee_boot_distn, ddof=1)
7.529520074825534

Een histogram van koffiesmaakgemiddelden met gemiddelde en standaarddeviaties aangeduid door verticale balken.

Steekproeven in Python

Kwantiemethode voor betrouwbaarheidsintervallen

np.quantile(coffee_boot_distn, 0.025)
7.4817195
np.quantile(coffee_boot_distn, 0.975)
7.5448805

Een 95 procent betrouwbaarheidsinterval-lijn.

Steekproeven in Python

Inverse cumulatieve verdelingsfunctie

  • PDF: de klokcurve
  • CDF: integreer om de oppervlakte onder de klok te krijgen
  • Inv. CDF: draai x- en y-assen om

In Python met

from scipy.stats import norm
norm.ppf(quantile, loc=0, scale=1)

Inverse cumulatieve verdelingsfunctie.

Steekproeven in Python

Standaardfoutmethode voor betrouwbaarheidsinterval

point_estimate = np.mean(coffee_boot_distn)
7.513452892
std_error = np.std(coffee_boot_distn, ddof=1)
0.016067182825533724
from scipy.stats import norm
lower = norm.ppf(0.025, loc=point_estimate, scale=std_error)
upper = norm.ppf(0.975, loc=point_estimate, scale=std_error)
print((lower, upper))
(7.481961792328933, 7.544943991671067)
Steekproeven in Python

Laten we oefenen!

Steekproeven in Python

Preparing Video For Download...