Dvouvýběrový t-test

Analýza dat z průzkumů v Pythonu

EbunOluwa Andrew

Data Scientist

Porovnání přívětivosti

lidé si podávají ruce

group_a.agreeableness.mean()
4.011701199563795
group_b.agreeableness.mean()
4.03669574700109
Analýza dat z průzkumů v Pythonu

Definice dvouvýběrového t-testu

  • Zkoumá, zda se průměry dvou nezávislých skupin významně liší
  • Určuje, zda jsou rozdíly náhodné

Lahvičky označené A a B

Analýza dat z průzkumů v Pythonu

Předpoklady dvouvýběrového t-testu

  • Nezávislost
  • Normální rozdělení
    • Shapiro-Wilkův test
    • stats.shapiro()
    • p-hodnota > 0,05 -> normální rozdělení
  • Rovnost rozptylů
    • Levenův test
    • stats.levene()
    • p-hodnota > 0,05 -> rovné rozptyly

Dřevěné číslice

Analýza dat z průzkumů v Pythonu

Výsledky průzkumu

group_a

| userid | agreeableness |
|--------|---------------|
|    895 |          4.78 |
|    a06 |          3.40 |
|    e94 |          3.66 |
|    ee6 |          5.41 |
|    521 |          4.58 |
|    f4c |          3.24 |
...

1 = Nepřívětivý

group_b

| userid | agreeableness |
|--------|---------------|
|    b7e | 4.43          |
|    030 | 2.92          |
|    f91 | 4.01          |
|    36f | 2.20          |
|    875 | 3.83          |
|    750 | 4.95          |
...

7 = Přívětivý

Analýza dat z průzkumů v Pythonu

Nezávislé skupiny

dvě skupiny

Analýza dat z průzkumů v Pythonu

Normálně rozdělené skupiny

from scipy.stats import shapiro
import scipy.stats as stats

norm_A = stats.shapiro(
  group_a.agreeableness)

ShapiroResult(
statistic=0.997467577457428,
pvalue=0.16834689676761627)
from scipy.stats import shapiro
import scipy.stats as stats

norm_B = stats.shapiro(
  group_b.agreeableness)

ShapiroResult(
statistic=0.9987381100654602,
pvalue=0.7757995128631592)
Analýza dat z průzkumů v Pythonu

Rovnost rozptylů

import scipy.stats as stats

var_test = stats.levene(group_a.agreeableness, group_b.agreeableness)
LeveneResult(statistic=0.40492634057696597, pvalue=0.5246354858484796)
Analýza dat z průzkumů v Pythonu

Předpoklady ověřeny

  • Nezávislé skupiny
    • bez překryvu jedinců
  • Normálně rozdělené skupiny
  • Rovné rozptyly
    • žádný významný rozdíl mezi oběma rozptyly

Apple Pencil – foto: Dose Media na Unsplash

Analýza dat z průzkumů v Pythonu

Dvouvýběrový t-test se statsmodels

from scipy import stats

stats.ttest_ind(group_a.agreeableness, group_b.agreeableness)
Analýza dat z průzkumů v Pythonu

Dvouvýběrový t-test se statsmodels

Ttest_indResult(statistic=0.7746406648066304, pvalue=0.4386519848366188)
Analýza dat z průzkumů v Pythonu

Další analýza

group_a_mean = 4.011701199563795
group_b_mean = 4.03669574700109

Bydlení v Kalifornii

Analýza dat z průzkumů v Pythonu

Pojďme si procvičit!

Analýza dat z průzkumů v Pythonu

Preparing Video For Download...