Interval kepercayaan

Sampling di R

Richie Cotton

Data Evangelist at DataCamp

Interval kepercayaan

  • "Nilai dalam satu simpangan baku dari rata-rata" mencakup banyak nilai dari tiap distribusi ini.
  • Kita akan mendefinisikan konsep terkait yang disebut interval kepercayaan.
Sampling di R

Memprediksi cuaca

  • Rapid City, South Dakota di Amerika Serikat memiliki cuaca paling tidak dapat diprediksi.
  • Tugas Anda: prediksi suhu maksimum di sana besok.

Peta cuaca dengan warna yang menunjukkan seberapa prediktif suatu wilayah.

Sampling di R

Prediksi cuaca Anda

  • taksiran titik = 47 °F (8,3 °C)
  • rentang nilai suhu maksimum yang masuk akal = 40 hingga 54 °F (4,4 hingga 12,8 °C)
Sampling di R

Anda baru saja melaporkan interval kepercayaan

  • 40 hingga 54 °F adalah interval kepercayaan
  • Kadang ditulis 47 °F (40 °F, 54 °F) atau 47 °F [40 °F, 54 °F]
  • ... atau, 47 ± 7 °F
  • 7 °F adalah margin galat
Sampling di R

Distribusi bootstrap dari rata-rata cita rasa

ggplot(coffee_boot_distn, aes(resample_mean)) +
  geom_histogram(binwidth = 0.002)

Histogram rata-rata cita rasa kopi.

Sampling di R

Rata-rata dari resampling

coffee_boot_distn %>% 
  summarize(
    mean_resample_mean = mean(resample_mean)
  )
# A tibble: 1 x 1
  mean_resample_mean
               <dbl>
1             7.5263

Histogram rata-rata cita rasa kopi dengan rata-rata ditandai garis biru vertikal.

Sampling di R

Rata-rata plus atau minus satu simpangan baku

coffee_boot_distn %>% 
  summarize(
    mean_resample_mean = mean(resample_mean),
    mean_minus_1sd = mean_resample_mean - sd(resample_mean),
    mean_plus_1sd = mean_resample_mean + sd(resample_mean)
  )
# A tibble: 1 x 3
  mean_resample_mean mean_plus_1sd mean_minus_1sd
               <dbl>         <dbl>          <dbl>
1             7.5263        7.5355         7.5171

Histogram rata-rata cita rasa kopi dengan rata-rata dan simpangan baku ditandai garis vertikal.

Sampling di R

Metode kuantil untuk interval kepercayaan

coffee_boot_distn %>% 
  summarize(
    lower = quantile(resample_mean, 0.025),
    upper = quantile(resample_mean, 0.975)
  )
# A tibble: 1 x 2
   lower  upper
   <dbl>  <dbl>
1 7.5087 7.5447

Garis interval kepercayaan 95 persen.

Sampling di R

Fungsi distribusi kumulatif invers

  • PDF: kurva lonceng
  • CDF: integralkan untuk luas di bawah kurva
  • Inv. CDF: tukar sumbu x dan y
normal_inv_cdf <- tibble(
  p = seq(-0.001, 0.999, 0.001),
  inv_cdf = qnorm(p)
)
ggplot(normal_inv_cdf, aes(p, inv_cdf)) +
  geom_line()

Fungsi distribusi kumulatif invers.

1 Lihat "Introduction to Statistics in R", Bab 3, "The Normal Distribution"
Sampling di R

Metode galat baku untuk interval kepercayaan

coffee_boot_distn %>% 
  summarize(
    point_estimate = mean(resample_mean),
    std_error = sd(resample_mean),

lower = qnorm(0.025, point_estimate, std_error), upper = qnorm(0.975, point_estimate, std_error)
)
# A tibble: 1 x 4
  point_estimate std_error  lower  upper
           <dbl>     <dbl>  <dbl>  <dbl>
1         7.5263 0.0091815 7.5083 7.5443
Sampling di R

Ayo berlatih!

Sampling di R

Preparing Video For Download...