Uji parametrik

Dasar-dasar Inferensi di Python

Paul Savala

Assistant Professor or Mathematics

ANOVA

  • ANOVA - Membandingkan rata-rata respons di tiap faktor
  • Respons - Nilai numerik terukur
  • Faktor - Nilai kategorikal yang mendefinisikan grup

Tabel yang menampilkan pendanaan modal ventura dari beberapa perusahaan di berbagai pasar.

Dasar-dasar Inferensi di Python

ANOVA

investments_df.groupby('market')['funding_total_usd'].mean()
Market        Average funding
===========   ===============
Advertising      13806610
Analytics        14762930
Biotechnology    20838670
...              ...
  • Respons: Pendanaan
  • Faktor: Pasar
  • ANOVA: Bandingkan rata-rata pendanaan per pasar
Dasar-dasar Inferensi di Python

Asumsi ANOVA

  • Respons per faktor berdistribusi normal
    • Jumlah pendanaan per pasar berdistribusi normal
  • Respons per faktor memiliki varians populasi yang sama
    • Variasi pendanaan per pasar berdistribusi normal
Dasar-dasar Inferensi di Python

Respons berdistribusi normal

health_df = investments_df[investments_df['market'] == 'Health and Wellness']
health_df['funding_total_usd'].plot(kind='hist')

Histogram dengan total pendanaan per perusahaan pada sumbu x, frekuensi pada sumbu y, satu batang sangat tinggi dekat nol, dan beberapa batang jauh lebih kecil setelahnya.

Dasar-dasar Inferensi di Python

Transformasi log dan normalitas

health_log = np.log(health_df['funding_total_usd'])

health_log.plot(kind='hist')

Histogram dengan total pendanaan per perusahaan pada sumbu x, frekuensi pada sumbu y, satu batang sangat tinggi dekat nol, dan beberapa batang jauh lebih kecil setelahnya.

Dasar-dasar Inferensi di Python

Kesamaan varians

investments_df['log_funding'] = np.log(investments_df['funding_total_usd'])

investments_df.groupby('market')['log_funding'].std()
Advertising            2.254390
Analytics              2.152852
Biotechnology          1.946059
...                    ...

Uji Levene untuk kesamaan varians

$H_0:$ Populasi memiliki varians yang sama

$H_a:$ Populasi memiliki varians yang berbeda

Dasar-dasar Inferensi di Python

Kesamaan varians

from scipy import stats

health_df = investments_df[investments_df['market'] == 'Health and Wellness']
analytics_df = investments_df[investments_df['market'] == 'Analytics']

s, p_value = stats.levene(health_df['log_funding'], analytics_df['log_funding'])
print(p_value < 0.05)
False

Kesimpulan: Gagal menolak hipotesis nol. Varians pendanaan antar pasar sama.

Dasar-dasar Inferensi di Python

ANOVA di SciPy

s, p_value = stats.f_oneway(health_df['log_funding'], 
                            analytics_df['log_funding'])

print(p_value < 0.05)
True

Kesimpulan: Pasar memiliki perbedaan pendanaan yang signifikan secara statistik.

Dasar-dasar Inferensi di Python

Inferensi berbasis ANOVA

  • $H_0:$ Semua mean sama
  • $H_a:$ Setidaknya satu mean berbeda
  • Tidak dapat menyimpulkan mean mana yang berbeda tanpa analisis lanjutan.
Dasar-dasar Inferensi di Python

Ayo berlatih!

Dasar-dasar Inferensi di Python

Preparing Video For Download...