t-toetsen uitvoeren

Hypothesis Testing in R

Richie Cotton

Data Evangelist at DataCamp

Twee-steekproefproblemen

Een ander probleem: vergelijk steekproefstatistieken tussen groepen van een variabele.
converted_comp is een numerieke variabele.
age_first_code_cut is een categorische variabele met niveaus ("child" en "adult").
Worden gebruikers die als kind begonnen met programmeren gemiddeld hoger beloond dan wie als volwassene begon?

Hypothesen

$H_{0}$: De gemiddelde beloning (in USD) is hetzelfde voor wie eerst als kind codeerde en wie eerst als volwassene codeerde.

$H_{0}$: $\mu_{child} = \mu_{adult}$

$H_{0}$: $\mu_{child} - \mu_{adult} = 0$

$H_{A}$: De gemiddelde beloning (in USD) is groter voor wie eerst als kind codeerde dan voor wie eerst als volwassene codeerde.

$H_{A}$: $\mu_{child} > \mu_{adult}$

$H_{A}$: $\mu_{child} - \mu_{adult} > 0$

Groepsgewijze samenvattingen berekenen

stack_overflow %>% 
  group_by(age_first_code_cut) %>% 
  summarize(mean_compensation = mean(converted_comp))

# A tibble: 2 x 2
  age_first_code_cut mean_compensation
  <chr>                          <dbl>
1 adult                        111544.
2 child                        138275.

Toetsingsgrootheden

De steekproefgemiddelde schat het populatiegemiddelde.
$\bar{x}$ staat voor een steekproefgemiddelde.
$\bar{x}_{child}$ is het steekproefgemiddelde van beloning voor eerst als kind coderen.
$\bar{x}_{adult}$ is het steekproefgemiddelde van beloning voor eerst als volwassene coderen.
$\bar{x}_{child} - \bar{x}_{adult}$ is een toetsingsgrootheid.
z-scores zijn één type (gestandaardiseerde) toetsingsgrootheid.

De toetsingsgrootheid standaardiseren

$z = \dfrac{\text{sample stat} - \text{population parameter}}{\text{standard error}}$

$t = \dfrac{\text{difference in sample stats} - \text{difference in population parameters}}{\text{standard error}}$

$t = \dfrac{(\bar{x}_{\text{child}} - \bar{x}_{\text{adult}}) - (\mu_{\text{child}} - \mu_{\text{adult}})}{SE(\bar{x}_{\text{child}} - \bar{x}_{\text{adult}})}$

Standaardfout

$SE(\bar{x}_{\text{child}} - \bar{x}_{\text{adult}}) \approx \sqrt{\dfrac{s_{\text{child}}^2}{n_{\text{child}}} + \dfrac{s_{\text{adult}}^2}{n_{\text{adult}}}}$

$s$ is de standaarddeviatie van de variabele.

$n$ is de steekproefgrootte (aantal observaties/rijen in de steekproef).

Uitgaand van de nulhypothese

$t = \dfrac{(\bar{x}_{\text{child}} - \bar{x}_{\text{adult}}) - (\mu_{\text{child}} - \mu_{\text{adult}})}{SE(\bar{x}_{\text{child}} - \bar{x}_{\text{adult}})}$

$H_{0}$: $\mu_{\text{child}} - \mu_{\text{adult}} = 0$

$t = \dfrac{(\bar{x}_{\text{child}} - \bar{x}_{\text{adult}}) }{SE(\bar{x}_{\text{child}} - \bar{x}_{\text{adult}})}$

$t = \dfrac{(\bar{x}_{\text{child}} - \bar{x}_{\text{adult}})}{\sqrt{\dfrac{s_{\text{child}}^2}{n_{\text{child}}} + \dfrac{s_{\text{adult}}^2}{n_{\text{adult}}}}}$

stack_overflow %>%
  group_by(age_first_code_cut) %>%
  summarize(
    xbar = mean(converted_comp),
    s = sd(converted_comp),
    n = n()
  )

# A tibble: 2 x 4
  age_first_code_cut    xbar       s     n
  <chr>                <dbl>   <dbl> <int>
1 adult              111544. 270381.  1579
2 child              138275. 278130.  1001

De toetsingsgrootheid berekenen

# A tibble: 2 x 4
  age_first_code_cut    xbar       s     n
  <chr>                <dbl>   <dbl> <int>
1 adult              111544. 270381.  1579
2 child              138275. 278130.  1001

$t = \dfrac{(\bar{x}_{\text{child}} - \bar{x}_{\text{adult}})}{\sqrt{\dfrac{s_{\text{child}}^2}{n_{\text{child}}} + \dfrac{s_{\text{adult}}^2}{n_{\text{adult}}}}}$

numerator <- xbar_child - xbar_adult
denominator <- sqrt(
  s_child ^ 2 / n_child + s_adult ^ 2 / n_adult
)
t_stat <- numerator / denominator

2.4046

Laten we oefenen!

Hypothesis Testing in R