Formula del modello

Modelli lineari generalizzati in Python

Ita Cirovic Donev

Data Science Consultant

Formula e matrice del modello

Inizio del diagramma con le sorgenti dati X e Y.

Modelli lineari generalizzati in Python

Formula e matrice del modello

Diagramma della formula

Modelli lineari generalizzati in Python

Formula e matrice del modello

Diagramma della matrice del modello

Modelli lineari generalizzati in Python

Formula e matrice del modello

Diagramma dell'input per la classe glm.

Modelli lineari generalizzati in Python

Matrice del modello

  • Matrice del modello: y ∼ X

  • Formula del modello

    'y ~ x1 + x2'
    
  • Verifica la struttura della matrice
    from patsy import dmatrix
    dmatrix('x1 + x2')
    
  Intercept  x1  x2
          1   1   4
          1   2   5
          1   3   6
Modelli lineari generalizzati in Python

Trasformazione delle variabili

import numpy as np
'y ~ x1 + np.log(x2)'
dmatrix('x1 + np.log(x2)')
DesignMatrix con forma (3, 3)
  Intercept  x1  np.log(x2)
          1   1     1.38629
          1   2     1.60944
          1   3     1.79176
Modelli lineari generalizzati in Python

Centramento e standardizzazione

  • Trasformazioni stateful
'y ~ center(x1) + standardize(x2)'
dmatrix('center(x1) + standardize(x2)')
DesignMatrix con forma (3, 3)
  Intercept  center(x1)  standardize(x2)
          1          -1         -1.22474
          1           0          0.00000
          1           1          1.22474
Modelli lineari generalizzati in Python

Crea la tua trasformazione

def my_transformation(x):
  return 4 * x
dmatrix('x1 + x2 + my_transformation(x2)')
DesignMatrix con forma (3, 4)
  Intercept  x1  x2  my_transformation(x2)
          1   1   4                     16
          1   2   5                     20
          1   3   6                     24
Modelli lineari generalizzati in Python

Operazioni aritmetiche

x1 = np.array([1, 2, 3])
x2 = np.array([4,5,6])

dmatrix('I(x1 + x2'))
DesignMatrix con forma (3, 2)
  Intercept  I(x1 + x2)
          1           5
          1           7
          1           9
x1 = [1, 2, 3]
x2 = [4,5,6]

dmatrix('I(x1 + x2)')
DesignMatrix con forma (6, 2)
  Intercept  I(x1 + x2)
          1           1
          1           2
          1           3
          1           4
          1           5
          1           6
Modelli lineari generalizzati in Python

Codifica dei dati categorici

Tipo di colore: rosso, verde, blu

Modelli lineari generalizzati in Python

Codifica dei dati categorici

Diagramma del tipo di colore: rosso, verde, blu e osservazioni del colore nei dati

Modelli lineari generalizzati in Python

Codifica dei dati categorici

Diagramma della one-hot encoding usando i colori rosso, verde e blu.

Modelli lineari generalizzati in Python

Codifica in Patsy

  • Stringhe e boolean sono codificati automaticamente
  • Numerico → categorico
    • funzione C()
  • Gruppo di riferimento
    • Default: primo gruppo
    • Treatment
    • levels
Modelli lineari generalizzati in Python

La funzione C()

  • Variabile numerica
    dmatrix('color', data = crab)
    
DesignMatrix con forma (173, 2)
  Intercept  color
          1      2
          1      3
          1      1
  [... righe omesse]
  • Quanti livelli?
    crab['color'].value_counts()
    
2    95
3    44
4    22
1    12
Modelli lineari generalizzati in Python

La funzione C()

  • Variabile categorica
    dmatrix('C(color)', data = crab)
    
DesignMatrix con forma (173, 4)
  Intercept  C(color)[T.2]  C(color)[T.3]  C(color)[T.4]
          1              1              0              0
          1              0              1              0
          1              0              0              0
  [... righe omesse]
Modelli lineari generalizzati in Python

Cambio del gruppo di riferimento

dmatrix('C(color, Treatment(4))', data = crab)
DesignMatrix con forma (173, 4)
  Intercept  C(color)[T.1]  C(color)[T.2]  C(color)[T.3]  
          1              0              1              0 
          1              0              0              1 
          1              1              0              0 
  [... righe omesse]
Modelli lineari generalizzati in Python

Cambio del gruppo di riferimento

l = [1, 2, 3,4]
dmatrix('C(color, levels = l)', data = crab)
DesignMatrix con forma (173, 4)
  Intercept  C(color)[T.2]  C(color)[T.3]   C(color)[T.4] 
          1               1            0               0     
          1               0            1               0
          1               0            0               0 
  [... righe omesse]
Modelli lineari generalizzati in Python

Intercette multiple

'y ~ C(color)-1'
dmatrix('C(color)-1', data = crab)
DesignMatrix con forma (173, 4)
  C(color)[1]  C(color)[2]  C(color)[3]  C(color)[4]
            0            1            0            0
            0            0            1            0
            1            0            0            0
  [... righe omesse]
Modelli lineari generalizzati in Python

Vamos praticar!

Modelli lineari generalizzati in Python

Preparing Video For Download...