Parametrische toetsen

Basis van inferentie in Python

Paul Savala

Assistant Professor or Mathematics

ANOVA

  • ANOVA - Vergelijkt het gemiddelde per factor
  • Respons - Een gemeten numerieke waarde
  • Factor - Een categorische waarde die groepen definieert

Een tabel met durfkapitaalfunding van meerdere bedrijven in verschillende markten.

Basis van inferentie in Python

ANOVA

investments_df.groupby('market')['funding_total_usd'].mean()
Market        Average funding
===========   ===============
Advertising      13806610
Analytics        14762930
Biotechnology    20838670
...              ...
  • Respons: Funding
  • Factor: Markt
  • ANOVA: Vergelijk gemiddelde funding per markt
Basis van inferentie in Python

Aannames van ANOVA

  • Respons per factor is normaal verdeeld
    • Fundingbedragen per markt zijn normaal verdeeld
  • Respons per factor heeft gelijke populatievariantie
    • Variatie in funding per markt is normaal verdeeld
Basis van inferentie in Python

Normaal verdeelde respons

health_df = investments_df[investments_df['market'] == 'Health and Wellness']
health_df['funding_total_usd'].plot(kind='hist')

Een histogram met totale funding per bedrijf op de x-as, frequentie op de y-as, één zeer hoge staaf dicht bij nul en enkele veel kleinere staven verderop.

Basis van inferentie in Python

Logtransformatie en normaliteit

health_log = np.log(health_df['funding_total_usd'])

health_log.plot(kind='hist')

Een histogram met totale funding per bedrijf op de x-as, frequentie op de y-as, één zeer hoge staaf dicht bij nul en enkele veel kleinere staven verderop.

Basis van inferentie in Python

Gelijke variantie

investments_df['log_funding'] = np.log(investments_df['funding_total_usd'])

investments_df.groupby('market')['log_funding'].std()
Advertising            2.254390
Analytics              2.152852
Biotechnology          1.946059
...                    ...

Levene-toets op gelijke variantie

$H_0:$ Populaties hebben gelijke variantie

$H_a:$ Populaties hebben verschillende varianties

Basis van inferentie in Python

Gelijke variantie

from scipy import stats

health_df = investments_df[investments_df['market'] == 'Health and Wellness']
analytics_df = investments_df[investments_df['market'] == 'Analytics']

s, p_value = stats.levene(health_df['log_funding'], analytics_df['log_funding'])
print(p_value < 0.05)
False

Conclusie: Verwerp $H_0$ niet. Markten hebben gelijke variantie in funding.

Basis van inferentie in Python

ANOVA in SciPy

s, p_value = stats.f_oneway(health_df['log_funding'], 
                            analytics_df['log_funding'])

print(p_value < 0.05)
True

Conclusie: De markten verschillen statistisch significant in funding.

Basis van inferentie in Python

Inferentie bij ANOVA

  • $H_0:$ Alle gemiddelden zijn gelijk
  • $H_a:$ Minstens één gemiddelde is anders
  • Je kunt niet bepalen welk(e) gemiddelde verschilt zonder vervolg­analyse.
Basis van inferentie in Python

Laten we oefenen!

Basis van inferentie in Python

Preparing Video For Download...