Bootstrapping

Dasar-dasar Inferensi di Python

Paul Savala

Assistant Professor of Mathematics

Bootstrapping

  • Bootstrapping = Sampling dengan pengembalian
    1. Pilih sampel secara acak
    2. Catat
    3. Kembalikan ke data (dengan pengembalian)
    4. Ulangi
  • Sampel bootstrap = Sampel dari proses bootstrapping
Dasar-dasar Inferensi di Python

Interval kepercayaan nonparametrik

  • Analogi nonparametrik dari stats.norm.interval
    • Ambil sampel dengan pengembalian
    • Hitung statistik uji
    • Catat
    • Ulangi
  • Menghasilkan distribusi empiris
Dasar-dasar Inferensi di Python
salaries_df['Years of Employment']
[6, 11, 14, 3, 2, ...]
sample_1 = salaries_df['Years of Employment'].sample(n=10)

print(max(sample_1) - min(sample_1))
7
  • Ulangi proses ini berkali-kali
  • 95% tengah dari hasil = interval kepercayaan bootstrap 95%
Dasar-dasar Inferensi di Python
# Fungsi statistik
def max_min(x):
    return max(x) - min(x)

# Data sebagai tuple data = (salaries_df['Years of Employment'], )
bootstrap_ci = stats.bootstrap(data, max_min, vectorized=False, n_resamples=1000)
print(bootstrap_ci)
BootstrapResult(confidence_interval=ConfidenceInterval(low=33.0, high=38.0),
standard_error=1.3843971812870597)
Dasar-dasar Inferensi di Python

Interval kepercayaan normal

 

  • Butuh data berdistribusi normal
  • Dihitung hanya dari mean dan galat baku
  • Inferensi valid hanya untuk data normal
  • Sangat cepat dihitung

Interval kepercayaan bootstrap

 

  • Memungkinkan distribusi apa pun
  • Dihitung langsung dari data lewat resampling
  • Inferensi valid untuk data apa pun
  • Jauh lebih lambat dihitung
Dasar-dasar Inferensi di Python

Kapan menggunakan bootstrapping

  • Saat bekerja dengan data non-normal
    • Data berperingkat
    • Data miring
  • Saat interval kepercayaan normal memberi nilai meragukan
  • Dapat dipakai untuk statistik apa pun
Dasar-dasar Inferensi di Python

Ayo berlatih!

Dasar-dasar Inferensi di Python

Preparing Video For Download...