Het probleem van overdispersie

Generalized Linear Models in Python

Ita Cirovic Donev

Data Science Consultant

De data begrijpen

Verdelingsgrafiek van het aantal satellieten (krab)

# mean of y
y_mean = crab['sat'].mean()
2.919
# variance of y
y_variance = crab['sat'].var()
9.912
Generalized Linear Models in Python

Gemiddelde niet gelijk aan variantie

  • $variance > mean$ $\rightarrow$ overdispersie
  • $variance < mean$ $\rightarrow$ onderdispersie

Gevolgen:

  • Kleine standaardfouten
  • Kleine p-waarde
Generalized Linear Models in Python

Hoe controleer je overdispersie?

Samenvatting van het gefitte model met markeringen bij df residuals en Pearson Chi-kwadraatstatistiek.

Generalized Linear Models in Python

Bepaal geschatte overdispersie

ratio = crab_fit.pearson_chi2 / crab_fit.df_resid
print(ratio)
3.134
  • Ratio $ =1$ $\rightarrow$ ongeveer Poisson

  • Ratio $ <1$ $\rightarrow$ onderdispersie

  • Ratio $ >1$ $\rightarrow$ overdispersie

Generalized Linear Models in Python

Negatieve-binomiale regressie

  • $E(y)=\lambda$
  • $Var(y) = \lambda+\alpha\lambda^2$
  • $\alpha$ – dispersieparameter
Generalized Linear Models in Python

GLM Negative Binomial in Python

import statsmodels.api as sm
from statsmodels.formula.api import glm
model = glm('y ~ x', data = my_data, 
            family = sm.families.NegativeBinomial(alpha = 1)).fit()
Generalized Linear Models in Python

Laten we oefenen!

Generalized Linear Models in Python

Preparing Video For Download...