Python'da Hipotez Testi
James Chapman
Curriculum Manager, DataCamp

Kontrol:

Tedavi:

import pandas as pd
print(stack_overflow)
respondent age_1st_code ... age hobbyist
0 36.0 30.0 ... 34.0 Yes
1 47.0 10.0 ... 53.0 Yes
2 69.0 12.0 ... 25.0 Yes
3 125.0 30.0 ... 41.0 Yes
4 147.0 15.0 ... 28.0 No
... ... ... ... ... ...
2259 62867.0 13.0 ... 33.0 Yes
2260 62882.0 13.0 ... 28.0 Yes
[2261 rows x 8 columns]
Bir hipotez:
Veri bilimcilerinin yıllık ortalama ücreti (evren) 110.000 $’dır
Nokta tahmini (örnek istatistiği):
mean_comp_samp = stack_overflow['converted_comp'].mean()
119574.71738168952
import numpy as np# Adım 3. Adım 1 ve 2’yi çok kez tekrarlayıp listeye ekleyin so_boot_distn = [] for i in range(5000): so_boot_distn.append(# Adım 2. Nokta tahminini hesapla np.mean(# Adım 1. Yeniden örnekle stack_overflow.sample(frac=1, replace=True)['converted_comp']))
import matplotlib.pyplot as plt
plt.hist(so_boot_distn, bins=50)
plt.show()

std_error = np.std(so_boot_distn, ddof=1)
5607.997577378606
$\text{standartlaştırılmış değer} = \dfrac{\text{değer} - \text{ortalama}}{\text{standart sapma}}$
$z = \dfrac{\text{örnek istatistiği} - \text{hip. parametre değeri}}{\text{standart hata}}$
$z = \dfrac{\text{örnek istatistiği} - \text{hip. parametre değeri}}{\text{standart hata}}$
stack_overflow['converted_comp'].mean()
119574.71738168952
mean_comp_hyp = 110000
std_error
5607.997577378606
z_score = (mean_comp_samp - mean_comp_hyp) / std_error
1.7073326529796957
Örnek istatistiklerinin beklenen (veya “hipotezlenen”) değerlere yakın mı uzak mı olduğunu belirlemek
Standart normal dağılım: ortalama = 0 ve standart sapma = 1 olan normal dağılım

Python'da Hipotez Testi