Eine Geschichte von zwei Variablen

Einführung in die Regression mit statsmodels in Python

Maarten Van den Broeck

Content Developer at DataCamp

Schwedische Kfz-Versicherungsdaten

  • Jede Zeile steht für eine Region in Schweden.
  • Es gibt 63 Zeilen.
n_claims total_payment_sek
108 392.5
19 46.2
13 15.7
124 422.2
40 119.4
... ...
Einführung in die Regression mit statsmodels in Python

Deskriptive Statistik

import pandas as pd
print(swedish_motor_insurance.mean())
n_claims             22.904762
total_payment_sek    98.187302
dtype: float64
print(swedish_motor_insurance['n_claims'].corr(swedish_motor_insurance['total_payment_sek']))
0.9128782350234068
Einführung in die Regression mit statsmodels in Python

Was ist Regression?

  • Statistische Modelle zur Untersuchung der Beziehung zwischen einer Zielvariable und erklärenden Variablen.
  • Aus erklärenden Variablen kannst du die Zielvariable vorhersagen.
n_claims total_payment_sek
108 3925
19 462
13 157
124 4222
40 1194
200 ???
Einführung in die Regression mit statsmodels in Python

Begriffe

Zielvariable (auch: abhängige Variable)

Die Variable, die du vorhersagen willst.

Erklärende Variablen (auch: unabhängige Variablen)

Variablen, die erklären, wie sich die Zielvariable ändert.

Einführung in die Regression mit statsmodels in Python

Lineare vs. logistische Regression

Lineare Regression

  • Die Zielvariable ist numerisch.

Logistische Regression

  • Die Zielvariable ist logisch.

Einfache lineare/logistische Regression

  • Es gibt nur eine erklärende Variable.
Einführung in die Regression mit statsmodels in Python

Paare von Variablen visualisieren

import matplotlib.pyplot as plt
import seaborn as sns

sns.scatterplot(x="n_claims",
                y="total_payment_sek",    
                data=swedish_motor_insurance)

plt.show()

Ein Streudiagramm der Gesamtzahlung gegenüber der Anzahl der Schadensfälle. Die Zahlung steigt mit der Anzahl der Schadensfälle.

Einführung in die Regression mit statsmodels in Python

Lineare Trendlinie hinzufügen

sns.regplot(x="n_claims",
            y="total_payment_sek",
            data=swedish_motor_insurance,
            ci=None)

Dasselbe Streudiagramm wie zuvor, nun mit zusätzlicher Trendlinie aus linearer Regression. Sie passt die Daten gut an.

Einführung in die Regression mit statsmodels in Python

Kursablauf

Kapitel 1

Lineare Regressionsmodelle visualisieren und fitten.

Kapitel 2

Aus linearen Regressionsmodellen vorhersagen und Koeffizienten verstehen.

Kapitel 3

Die Qualität des linearen Regressionsmodells beurteilen.

Kapitel 4

Dasselbe mit logistischen Regressionsmodellen.

Einführung in die Regression mit statsmodels in Python

Python-Pakete für Regression

statsmodels

  • Optimiert für Einsichten (Fokus in diesem Kurs)

scikit-learn

  • Optimiert für Vorhersage (Fokus in anderen DataCamp-Kursen)
Einführung in die Regression mit statsmodels in Python

Lass uns üben!

Einführung in die Regression mit statsmodels in Python

Preparing Video For Download...