Parametrik testler

Python'da Çıkarımın Temelleri

Paul Savala

Assistant Professor or Mathematics

ANOVA

  • ANOVA - Her faktördeki ortalama yanıtı karşılaştırır
  • Yanıt - Sayısal ölçülen değer
  • Faktör - Grupları tanımlayan kategorik değer

Birden çok pazarda çeşitli şirketlerin girişim sermayesi fonlamasını gösteren bir tablo.

Python'da Çıkarımın Temelleri

ANOVA

investments_df.groupby('market')['funding_total_usd'].mean()
Market        Average funding
===========   ===============
Advertising      13806610
Analytics        14762930
Biotechnology    20838670
...              ...
  • Yanıt: Fonlama
  • Faktör: Pazar
  • ANOVA: Pazara göre ortalama fonlamayı karşılaştırır
Python'da Çıkarımın Temelleri

ANOVA varsayımları

  • Her faktör için yanıtlar normal dağılmıştır
    • Pazara göre fonlama tutarları normal dağılmıştır
  • Faktöre göre yanıtların anakütle varyansları eşittir
    • Pazara göre fonlama değişkenliği normal dağılmıştır
Python'da Çıkarımın Temelleri

Normal dağılmış yanıt

health_df = investments_df[investments_df['market'] == 'Health and Wellness']
health_df['funding_total_usd'].plot(kind='hist')

x ekseninde şirket başına toplam fonlama, y ekseninde frekans; sıfıra yakın çok yüksek bir çubuk ve sonrasında birkaç daha küçük çubuk olan histogram.

Python'da Çıkarımın Temelleri

Log dönüşümü ve normallik

health_log = np.log(health_df['funding_total_usd'])

health_log.plot(kind='hist')

x ekseninde şirket başına toplam fonlama, y ekseninde frekans; sıfıra yakın çok yüksek bir çubuk ve sonrasında birkaç daha küçük çubuk olan histogram.

Python'da Çıkarımın Temelleri

Eşit varyans

investments_df['log_funding'] = np.log(investments_df['funding_total_usd'])

investments_df.groupby('market')['log_funding'].std()
Advertising            2.254390
Analytics              2.152852
Biotechnology          1.946059
...                    ...

Levene eşit varyans testi

$H_0:$ Anakütlelerin varyansları eşittir

$H_a:$ Anakütlelerin varyansları farklıdır

Python'da Çıkarımın Temelleri

Eşit varyans

from scipy import stats

health_df = investments_df[investments_df['market'] == 'Health and Wellness']
analytics_df = investments_df[investments_df['market'] == 'Analytics']

s, p_value = stats.levene(health_df['log_funding'], analytics_df['log_funding'])
print(p_value < 0.05)
False

Sonuç: Sıfır hipotezi reddedilemedi. Pazarların fonlama varyansları eşittir.

Python'da Çıkarımın Temelleri

SciPy ile ANOVA

s, p_value = stats.f_oneway(health_df['log_funding'], 
                            analytics_df['log_funding'])

print(p_value < 0.05)
True

Sonuç: Pazarların fonlaması istatistiksel olarak anlamlı biçimde farklıdır.

Python'da Çıkarımın Temelleri

ANOVA’ya dayalı çıkarım

  • $H_0:$ Tüm ortalamalar aynıdır
  • $H_a:$ En az bir ortalama farklıdır
  • Hangi ortalamanın farklı olduğunu ek analiz olmadan söyleyemeyiz.
Python'da Çıkarımın Temelleri

Hadi pratik yapalım!

Python'da Çıkarımın Temelleri

Preparing Video For Download...