Regressione verso la media

Introduzione alla regressione con statsmodels in Python

Maarten Van den Broeck

Content Developer at DataCamp

Il concetto

  • Valore risposta = valore stimato + residuo
  • "Ciò che hai spiegato" + "ciò che non hai spiegato"
  • I residui esistono per limiti del modello e per casualità intrinseca
  • I casi estremi spesso dipendono dal caso
  • La regressione verso la media implica che i casi estremi non persistono nel tempo
Introduzione alla regressione con statsmodels in Python

Il dataset di Pearson su padri e figli

  • 1078 coppie padre/figlio
  • I padri alti hanno figli alti?
father_height_cm son_height_cm
165.2 151.8
160.7 160.6
165.0 160.9
167.0 159.5
155.3 163.3
... ...
1 Adattato da https://www.rdocumentation.org/packages/UsingR/topics/father.son
Introduzione alla regressione con statsmodels in Python

Scatter plot

fig = plt.figure()
sns.scatterplot(x="father_height_cm",
                y="son_height_cm",
                data=father_son)
plt.axline(xy1=(150, 150),
           slope=1,
           linewidth=2,
           color="green")
plt.axis("equal")
plt.show()

Scatter plot dell'altezza dei figli rispetto a quella dei padri, con una linea in cui padre e figlio avrebbero la stessa altezza. All'aumentare dell'altezza dei padri, cresce anche quella dei figli.

Introduzione alla regressione con statsmodels in Python

Aggiungere la retta di regressione

fig = plt.figure()

sns.regplot(x="father_height_cm",
            y="son_height_cm",
            data=father_son,
            ci = None, 
            line_kws={"color": "black"})

plt.axline(xy1 = (150, 150),
           slope=1,
           linewidth=2,
           color="green")

plt.axis("equal")
plt.show()

Scatter plot dell'altezza dei figli rispetto a quella dei padri, con retta di tendenza. La retta è meno ripida della linea in cui padre e figlio avrebbero la stessa altezza.

Introduzione alla regressione con statsmodels in Python

Eseguire una regressione

mdl_son_vs_father = ols("son_height_cm ~ father_height_cm",
                        data = father_son).fit()
print(mdl_son_vs_father.params)
Intercept           86.071975
father_height_cm     0.514093
dtype: float64
Introduzione alla regressione con statsmodels in Python

Fare previsioni

really_tall_father = pd.DataFrame(
  {"father_height_cm": [190]})

mdl_son_vs_father.predict(
  really_tall_father)
183.7
really_short_father = pd.DataFrame(
  {"father_height_cm": [150]})

mdl_son_vs_father.predict(
  really_short_father)
163.2
Introduzione alla regressione con statsmodels in Python

Passiamo alla pratica !

Introduzione alla regressione con statsmodels in Python

Preparing Video For Download...