Vorhersagen treffen

Einführung in die Regression mit statsmodels in Python

Maarten Van den Broeck

Content Developer at DataCamp

Datensatz Fische: Brasse

bream = fish[fish["species"] == "Bream"]
print(bream.head())
  species  mass_g  length_cm
0   Bream   242.0       23.2
1   Bream   290.0       24.0
2   Bream   340.0       23.9
3   Bream   363.0       26.3
4   Bream   430.0       26.5

Flussbarsch, _Abramis brama_

Einführung in die Regression mit statsmodels in Python

Masse vs. Länge plotten

sns.regplot(x="length_cm",
            y="mass_g",
            data=bream,
            ci=None)

plt.show()

Streudiagramm der Brassenmasse gegen Länge mit linearer Trendlinie. Die Punkte liegen nahe an der Linie.

Einführung in die Regression mit statsmodels in Python

Modell ausführen

mdl_mass_vs_length = ols("mass_g ~ length_cm", data=bream).fit()

print(mdl_mass_vs_length.params)
Intercept   -1035.347565
length_cm      54.549981
dtype: float64
Einführung in die Regression mit statsmodels in Python

Daten zu erklärenden Werten für Vorhersagen

Wenn ich die erklärenden Variablen so setze,
welchen Wert hätte die Zielvariable?

explanatory_data = pd.DataFrame({"length_cm": np.arange(20, 41)})
    length_cm
0          20
1          21
2          22
3          23
4          24
5          25
     ...
Einführung in die Regression mit statsmodels in Python

predict() aufrufen

print(mdl_mass_vs_length.predict(explanatory_data))
0       55.652054
1      110.202035
2      164.752015
3      219.301996
4      273.851977
    ...
16     928.451749
17     983.001730
18    1037.551710
19    1092.101691
20    1146.651672
Length: 21, dtype: float64
Einführung in die Regression mit statsmodels in Python

Vorhersagen im DataFrame

explanatory_data = pd.DataFrame(
  {"length_cm": np.arange(20, 41)}
)

prediction_data = explanatory_data.assign( mass_g=mdl_mass_vs_length.predict(explanatory_data) )
print(prediction_data)
    length_cm         mass_g
0          20      55.652054
1          21     110.202035
2          22     164.752015
3          23     219.301996
4          24     273.851977
..        ...            ...
16         36     928.451749
17         37     983.001730
18         38    1037.551710
19         39    1092.101691
20         40    1146.651672
Einführung in die Regression mit statsmodels in Python

Vorhersagen anzeigen

import matplotlib.pyplot as plt
import seaborn as sns
fig = plt.figure()
sns.regplot(x="length_cm",
            y="mass_g",
            ci=None,
            data=bream,)
sns.scatterplot(x="length_cm",
                y="mass_g",
                data=prediction_data, 
                color="red",
                marker="s")
plt.show()

Streudiagramm der Brassenmasse gegen Länge mit linearer Trendlinie; mit Punkten aus predict() annotiert. Diese liegen exakt auf der Linie.

Einführung in die Regression mit statsmodels in Python

Extrapolieren

Extrapolieren heißt, außerhalb des beobachteten Bereichs vorherzusagen.

little_bream = pd.DataFrame({"length_cm": [10]})

pred_little_bream = little_bream.assign(
    mass_g=mdl_mass_vs_length.predict(little_bream))

print(pred_little_bream)
   length_cm      mass_g
0         10 -489.847756

Streudiagramm der Brassenmasse gegen Länge mit linearer Trendlinie. Annotiert mit einer fiktiven 10‑cm‑Brasse und ihrer vorhergesagten Masse.

Einführung in die Regression mit statsmodels in Python

Lass uns üben!

Einführung in die Regression mit statsmodels in Python

Preparing Video For Download...