t統計量からp値を計算する

Rによる仮説検定

Richie Cotton

Data Evangelist at DataCamp

t分布

  • 検定統計量 t は t分布に従う。
  • t分布には「自由度(df)」というパラメータがある。
  • t分布は正規分布に似るが、裾が太い。

標準正規分布のPDFと自由度1のt分布の比較グラフ。t分布は裾が太く、中央のピークが低い。

Rによる仮説検定

自由度

  • 自由度が増えるほど、t分布は正規分布に近づく。
  • 正規分布は自由度無限大のt分布。
  • 自由度は標本中の論理的に独立な値の最大数。

標準正規分布のPDFと各種自由度のt分布の比較グラフ。自由度が増えると裾が細くなり、ピークが高くなり、正規分布に近づく。

Rによる仮説検定

自由度の計算

  • 独立な観測が5つあるとする。
  • 4つの値は 2, 6, 8, 5。
  • 標本平均は 5 とわかっている。
  • 残り1つは独立でなくなり、4 でなければならない。
  • 自由度は 4。
  • $df = n_{child} + n_{adult} - 2$
Rによる仮説検定

仮説

$H_{0}$:子ども期に初めてコーディングした人と大人になってから初めてコーディングした人で、平均報酬(USD)は同じ。

$H_{A}$:子ども期に初めてコーディングした人の平均報酬(USD)は、大人で初めての人より大きい。

 

右片側検定を用いる。

Rによる仮説検定

有意水準

$\alpha = 0.1$

もし $p \le \alpha$ なら $H_{0}$ を棄却。

Rによる仮説検定

p値の計算:1つの比率 vs. ある値

p_value <- pnorm(z_score, lower.tail = FALSE)
Rによる仮説検定

p値の計算:異なる2群の平均

numerator <- xbar_child - xbar_adult
denominator <- sqrt(s_child ^ 2 / n_child + s_adult ^ 2 / n_adult)
t_stat <- numerator / denominator
2.4046
degrees_of_freedom <- n_child + n_adult - 2
2578
  • 検定統計量の標準誤差は近似(ブートストラップではない)を使用。
  • 正規分布のCDFではなくt分布のCDFを使用。
p_value <- pt(t_stat, df = degrees_of_freedom, lower.tail = FALSE)
0.008130
Rによる仮説検定

Ayo berlatih!

Rによる仮説検定

Preparing Video For Download...