Hypothesevorming en verdelingen

A/B-testen in Python

Moe Lotfy, PhD

Principal Data Science Manager

Hypothesen definiƫren

  • Een hypothese is:

    • een uitspraak die een gebeurtenis verklaart
    • een startpunt voor verder onderzoek
    • een idee dat we willen testen
  • Een sterke hypothese:

    • is toetsbaar, declaratief, bondig en logisch
    • maakt systematische iteratie mogelijk
    • is makkelijker te generaliseren en bevestigt begrip
    • levert concrete/gerichte aanbevelingen op
A/B-testen in Python

Hypotheseformaat

  • Algemene formulering:

    • Op basis van X denken we dat als we Y doen
    • Dan gebeurt Z
    • Gemeten met metriek(en) M
  • Voorbeeld alternatieve hypothese:

    • Op basis van UX-onderzoek denken we dat als we het ontwerp van de checkout-pagina updaten
    • Dan stijgt het percentage kopende klanten
    • Gemeten met aankoopratio
  • Nulhypothese: ...het percentage kopende klanten verandert niet...
A/B-testen in Python

Steekproefstatistieken berekenen

# Calculate the number of users in groups A and B
n_A = checkout[checkout['checkout_page'] == 'A']['purchased'].count()
n_B = checkout[checkout['checkout_page'] == 'B']['purchased'].count()
print('Group A users:',n_A)
print('Group B users:',n_B)
Group A users: 3000
Group B users: 3000
# Calculate the mean purchase rates of groups A and B
p_A = checkout[checkout['checkout_page'] == 'A']['purchased'].mean()
p_B = checkout[checkout['checkout_page'] == 'B']['purchased'].mean()
print('Group A mean purchase rate:',p_A)
print('Group B mean purchase rate:',p_B)
Group A mean purchase rate: 0.820
Group B mean purchase rate: 0.847
A/B-testen in Python

Verdelingen simuleren en plotten

Het aantal kopers in n proeven met koopkans p is binomiaal verdeeld.

# Import binom from scipy library 
from scipy.stats import binom 
# Create x-axis range and Binomial distributions A and B
x = np.arange(n_A*p_A - 100, n_B*p_B + 100) 
binom_a = binom.pmf(x, n_A, p_A)
binom_b = binom.pmf(x, n_B, p_B) 
# Plot Binomial distributions A and B
plt.bar(x, binom_a, alpha=0.4, label='Checkout A')
plt.bar(x, binom_b, alpha=0.4, label='Checkout B')
plt.xlabel('Purchased')
plt.ylabel('PMF')
plt.title('PMF of Checkouts Binomial distribution')
plt.show()

Binomiale verdeling van checkout-groepen A en B

A/B-testen in Python

Centrale limietstelling

Bij een voldoende grote steekproefomvang is de verdeling van de steekproefgemiddelden, p,

  • normaal verdeeld rond het echte populatiegemiddelde
  • met standaarddeviatie = standaardfout van het gemiddelde
  • ongeacht de verdeling van de onderliggende data

Formule centraal-limietstelling voor proporties

A/B-testen in Python

Centrale limietstelling in Python

# Set random seed for repeatability 
np.random.seed(47)
# Create an empty list to hold means
sampled_means = []
# Create loop to simulate 1000 sample means
for i in range(1000):
    # Take a sample of n=100
    sample = checkout['purchased'].sample(100,replace=True)
    # Get the sample mean and append to list
    sample_mean = np.mean(sample)
    sampled_means.append(sample_mean)
# Plot distribution
sns.displot(sampled_means, kde=True)
plt.show()

Python-demonstratie centrale limietstelling. De verdeling nadert normaal naarmate n toeneemt

A/B-testen in Python

Wiskundige weergave van hypothesen

# Import norm from scipy library 
from scipy.stats import norm
# Create x-axis range and normal distributions A and B
x = np.linspace(0.775, 0.9, 500)
norm_a = norm.pdf(x, p_A, np.sqrt(p_A*(1-p_A) / n_A))
norm_b = norm.pdf(x, p_B, np.sqrt(p_B*(1-p_B) / n_B))
# Plot normal distributions A and B
sns.lineplot(x=x, y=norm_a, ax=ax, label='Checkout A')
sns.lineplot(x=x, y=norm_b, color='orange', \
             ax=ax, label= 'Checkout B')
ax.axvline(p_A, linestyle='--')
ax.axvline(p_B, linestyle='--')
plt.xlabel('Purchased Proportion')
plt.ylabel('PDF')
plt.legend(loc="upper left")
plt.show()

Verschil-in-gemiddelden-grafieken van nul- en alternatieve hypothesen

Wiskundige formulering van nul- en alternatieve hypothesen

A/B-testen in Python

Laten we oefenen!

A/B-testen in Python

Preparing Video For Download...