Die Geschichte zweier Variablen

Einführung in Regression mit statsmodels in Python

Maarten Van den Broeck

Content Developer at DataCamp

Daten einer schwedischen Kfz-Versicherung

  • Jede Zeile steht für eine Region in Schweden.
  • Es gibt 63 Zeilen.
n_claims total_payment_sek
108 392.5
19 46.2
13 15.7
124 422.2
40 119.4
... ...
Einführung in Regression mit statsmodels in Python

Deskriptive Statistik

import pandas as pd
print(swedish_motor_insurance.mean())

n_claims 22.904762 total_payment_sek 98.187302 dtype: float64
print(swedish_motor_insurance['n_claims'].corr(swedish_motor_insurance['total_payment_sek']))
0.9128782350234068
Einführung in Regression mit statsmodels in Python

Was ist Regression?

  • Statistische Modelle, um die Beziehung zwischen einer Antwortvariablen und erklärenden Variablen zu untersuchen.
  • Mit den Werten der erklärenden Variablen kannst du die Werte der Antwortvariablen vorhersagen.
n_claims total_payment_sek
108 3.925
19 462
13 157
124 4.222
40 1.194
200 ???
Einführung in Regression mit statsmodels in Python

Fachbegriffe

Antwortvariable (auch als abhängige Variable bezeichnet)

Die Variable, die du vorhersagen willst.

Erklärende Variablen (auch bekannt als unabhängige Variablen oder Prädiktoren)

Die Variablen, die erklären, wie sich die Antwortvariable ändern wird.

Einführung in Regression mit statsmodels in Python

Lineare Regression und logistische Regression

Lineare Regression

  • Die Antwortvariable ist numerisch.

Logistische Regression

  • Die Antwortvariable ist logisch.

Einfache lineare/logistische Regression

  • Es gibt nur eine erklärende Variable.
Einführung in Regression mit statsmodels in Python

Visualisierung von Variablenpaaren

import matplotlib.pyplot as plt
import seaborn as sns

sns.scatterplot(x="n_claims",
                y="total_payment_sek",    
                data=swedish_motor_insurance)

plt.show()

Ein Streudiagramm der Gesamtzahlung im Vergleich zur Anzahl der Schadensfälle. Die Zahlung wird höher, je mehr Ansprüche man hat.

Einführung in Regression mit statsmodels in Python

Eine lineare Trendlinie hinzufügen

sns.regplot(x="n_claims",
            y="total_payment_sek",
            data=swedish_motor_insurance,
            ci=None)

Das gleiche Streudiagramm wie vorher, jetzt mit einer zusätzlichen Trendlinie, die durch lineare Regression berechnet wurde. Es passt ganz gut zu den Daten.

Einführung in Regression mit statsmodels in Python

Ablauf des Kurses

Kapitel 1

Lineare Regressionsmodelle anschaulich darstellen und anpassen.

Kapitel 2

Vorhersagen anhand linearer Regressionsmodelle vornehmen und die Modellkoeffizienten verstehen.

Kapitel 3

Die Qualität des linearen Regressionsmodells prüfen.

Kapitel 4

Gleicher Inhalt, aber mit logistischen Regressionsmodellen

Einführung in Regression mit statsmodels in Python

Python-Pakete für Regression

statsmodels

  • Optimiert für Erkenntnisse (Schwerpunkt dieses Kurses)

scikit-learn

  • Optimiert für Vorhersagen (Schwerpunkt in anderen DataCamp-Kursen)
Einführung in Regression mit statsmodels in Python

Lass uns üben!

Einführung in Regression mit statsmodels in Python

Preparing Video For Download...