Una storia di due variabili

Introduzione alla regressione con statsmodels in Python

Maarten Van den Broeck

Content Developer at DataCamp

Dati sull’assicurazione auto svedese

  • Ogni riga rappresenta una regione geografica in Svezia.
  • Ci sono 63 righe.
n_claims total_payment_sek
108 392.5
19 46.2
13 15.7
124 422.2
40 119.4
... ...
Introduzione alla regressione con statsmodels in Python

Statistiche descrittive

import pandas as pd
print(swedish_motor_insurance.mean())
n_claims             22.904762
total_payment_sek    98.187302
dtype: float64
print(swedish_motor_insurance['n_claims'].corr(swedish_motor_insurance['total_payment_sek']))
0.9128782350234068
Introduzione alla regressione con statsmodels in Python

Cos’è la regressione?

  • Modelli statistici per esplorare la relazione tra una variabile risposta e variabili esplicative.
  • Dati i valori delle variabili esplicative, puoi prevedere la variabile risposta.
n_claims total_payment_sek
108 3925
19 462
13 157
124 4222
40 1194
200 ???
Introduzione alla regressione con statsmodels in Python

Gergo

Variabile risposta (o dipendente)

La variabile che vuoi prevedere.

Variabili esplicative (o indipendenti)

Le variabili che spiegano come cambia la risposta.

Introduzione alla regressione con statsmodels in Python

Regressione lineare e logistica

Regressione lineare

  • La variabile risposta è numerica.

Regressione logistica

  • La variabile risposta è booleana.

Regressione lineare/logistica semplice

  • C’è una sola variabile esplicativa.
Introduzione alla regressione con statsmodels in Python

Visualizzare coppie di variabili

import matplotlib.pyplot as plt
import seaborn as sns

sns.scatterplot(x="n_claims",
                y="total_payment_sek",    
                data=swedish_motor_insurance)

plt.show()

Uno scatter plot del pagamento totale rispetto al numero di sinistri. Il pagamento cresce all’aumentare dei sinistri.

Introduzione alla regressione con statsmodels in Python

Aggiungere una linea di tendenza lineare

sns.regplot(x="n_claims",
            y="total_payment_sek",
            data=swedish_motor_insurance,
            ci=None)

Lo stesso scatter plot di prima, ora con una linea di tendenza calcolata con regressione lineare. Si adatta bene ai dati.

Introduzione alla regressione con statsmodels in Python

Struttura del corso

Capitolo 1

Visualizzare e adattare modelli di regressione lineare.

Capitolo 2

Fare previsioni con modelli lineari e capire i coefficienti.

Capitolo 3

Valutare la qualità del modello lineare.

Capitolo 4

Stesso procedimento con modelli logistici.

Introduzione alla regressione con statsmodels in Python

Librerie Python per la regressione

statsmodels

  • Ottimizzato per l’interpretazione (focus di questo corso)

scikit-learn

  • Ottimizzato per la previsione (trattato in altri corsi DataCamp)
Introduzione alla regressione con statsmodels in Python

Passons à la pratique !

Introduzione alla regressione con statsmodels in Python

Preparing Video For Download...