Tellingendata en Poissonverdeling

Generalized Linear Models in Python

Ita Cirovic Donev

Data Science Consultant

Tellingendata

  • Tel het aantal gebeurtenissen per eenheid tijd, afstand, gebied of volume

Voorbeelden:

  • Doelpunten in een voetbalwedstrijd
  • Aantal aardbevingen
  • Aantal krabsatellieten
  • Aantal gewonnen prijzen per persoon
  • Aantal fietsers over de brug
Generalized Linear Models in Python

Poisson-toevalsvariabele

  • Gebeurtenissen treden onafhankelijk en willekeurig op
  • Poissonverdeling

$$ P(y)=\frac{\lambda^ye^{-\lambda}}{y!} $$

  • $\lambda$: gemiddelde en variantie
  • $y=0,1,2,3, ...$
    • $\text{\color{#E80C7A}{Altijd positief}}$
    • Discreet (niet continu)
    • $\text{\color{#E80C7A}{Ondergrens nul}}$, geen bovengrens
Generalized Linear Models in Python

De parameter van de Poissonverdeling begrijpen

Verdelingsgrafieken van de Poisson-toevalsvariabele met lambda gelijk aan respectievelijk 1, 5 en 10.

Generalized Linear Models in Python

De respons visualiseren

import seaborn as sns
sns.distplot('y')
Generalized Linear Models in Python

Poisson-regressie

  • Responsvariabele $$ y \sim Poisson(\lambda) $$

  • Gemiddelde van de respons $$ E(y)=\lambda $$

  • Poisson-regressiemodel $$ log(\lambda)=\beta_0+\beta_1x_1 $$

Generalized Linear Models in Python

Verklarende variabelen

  • Continu en/of categorisch → Poisson-regressiemodel
  • Categorisch → log-lineair model
Generalized Linear Models in Python

GLM met Poisson in Python

import statsmodels.api as sm
from statsmodels.formula.api import glm
glm('y ~ x', 
    data = my_data,
    family = sm.families.Poisson())
Generalized Linear Models in Python

Laten we oefenen!

Generalized Linear Models in Python

Preparing Video For Download...