Interval kepercayaan

Sampling di Python

James Chapman

Curriculum Manager, DataCamp

Interval kepercayaan

  • "Nilai dalam satu simpangan baku dari rata-rata" mencakup banyak nilai dari tiap distribusi ini
  • Kita akan mendefinisikan konsep terkait bernama interval kepercayaan
Sampling di Python

Memprediksi cuaca

  • Rapid City, South Dakota di Amerika Serikat memiliki cuaca paling sulit diprediksi
  • Tugas kita adalah memprediksi suhu maksimum di sana besok

Peta cuaca, dengan warna yang menunjukkan seberapa dapat diprediksi tiap wilayah.

Sampling di Python

Prediksi cuaca kita

  • Estimasi titik = 47°F (8,3°C)
  • Rentang nilai suhu maksimum yang masuk akal = 40 hingga 54°F (4,4 hingga 12,8°C)
Sampling di Python

Kita baru saja melaporkan interval kepercayaan!

  • 40 hingga 54°F adalah interval kepercayaan
  • Kadang ditulis 47 °F (40°F, 54°F) atau 47°F [40°F, 54°F]
  • ... atau, 47 ± 7°F
  • 7°F adalah margin galat
Sampling di Python

Distribusi bootstrap rata-rata rasa

import matplotlib.pyplot as plt
plt.hist(coffee_boot_distn, bins=15)
plt.show()

Histogram rata-rata cita rasa kopi.

Sampling di Python

Rata-rata dari pengambilan ulang

import numpy as np
np.mean(coffee_boot_distn)
7.513452892

Histogram rata-rata cita rasa kopi dengan rata-rata ditandai garis vertikal hitam.

Sampling di Python

Rata-rata plus atau minus satu simpangan baku

np.mean(coffee_boot_distn)
7.513452892
np.mean(coffee_boot_distn) - np.std(coffee_boot_distn, ddof=1)
7.497385709174466
np.mean(coffee_boot_distn) + np.std(coffee_boot_distn, ddof=1)
7.529520074825534

Histogram rata-rata cita rasa kopi dengan rata-rata dan simpangan baku ditandai garis vertikal.

Sampling di Python

Metode kuantil untuk interval kepercayaan

np.quantile(coffee_boot_distn, 0.025)
7.4817195
np.quantile(coffee_boot_distn, 0.975)
7.5448805

Garis interval kepercayaan 95 persen.

Sampling di Python

Fungsi distribusi kumulatif invers

  • PDF: Kurva lonceng
  • CDF: integralkan untuk luas di bawah kurva lonceng
  • Inv. CDF: tukar sumbu x dan y

Diimplementasikan di Python dengan

from scipy.stats import norm
norm.ppf(quantile, loc=0, scale=1)

Fungsi distribusi kumulatif invers.

Sampling di Python

Metode galat baku untuk interval kepercayaan

point_estimate = np.mean(coffee_boot_distn)
7.513452892
std_error = np.std(coffee_boot_distn, ddof=1)
0.016067182825533724
from scipy.stats import norm
lower = norm.ppf(0.025, loc=point_estimate, scale=std_error)
upper = norm.ppf(0.975, loc=point_estimate, scale=std_error)
print((lower, upper))
(7.481961792328933, 7.544943991671067)
Sampling di Python

Ayo berlatih!

Sampling di Python

Preparing Video For Download...