Dati di conteggio e distribuzione di Poisson

Modelli lineari generalizzati in Python

Ita Cirovic Donev

Data Science Consultant

Dati di conteggio

  • Conta il numero di occorrenze in una unità di tempo, distanza, area o volume

Esempi:

  • Gol in una partita di calcio
  • Numero di terremoti
  • Numero di satelliti dei granchi
  • Numero di premi vinti da una persona
  • Numero di attraversamenti in bici sul ponte
Modelli lineari generalizzati in Python

Variabile casuale di Poisson

  • Eventi indipendenti e casuali
  • Distribuzione di Poisson

$$ P(y)=\frac{\lambda^ye^{-\lambda}}{y!} $$

  • $\lambda$: media e varianza
  • $y=0,1,2,3, ...$
    • $\text{\color{#E80C7A}{Sempre positivo}}$
    • Discreto (non continuo)
    • $\text{\color{#E80C7A}{Limite inferiore zero}}$, nessun limite superiore
Modelli lineari generalizzati in Python

Capire il parametro della distribuzione di Poisson

Grafici di distribuzione della variabile di Poisson con lambda pari a 1, 5 e 10.

Modelli lineari generalizzati in Python

Visualizzare la risposta

import seaborn as sns
sns.distplot('y')
Modelli lineari generalizzati in Python

Regressione di Poisson

  • Variabile risposta $$ y \sim Poisson(\lambda) $$

  • Media della risposta $$ E(y)=\lambda $$

  • Modello di regressione di Poisson $$ log(\lambda)=\beta_0+\beta_1x_1 $$

Modelli lineari generalizzati in Python

Variabili esplicative

  • Continue e/o categoriche $\rightarrow$ modello di regressione di Poisson
  • Categoriche $\rightarrow$ modello log-lineare
Modelli lineari generalizzati in Python

GLM con Poisson in Python

import statsmodels.api as sm
from statsmodels.formula.api import glm
glm('y ~ x', 
    data = my_data,
    family = sm.families.Poisson())
Modelli lineari generalizzati in Python

Ayo berlatih!

Modelli lineari generalizzati in Python

Preparing Video For Download...