Kisah dua variabel

Pengantar Regresi dengan statsmodels di Python

Maarten Van den Broeck

Content Developer at DataCamp

Data asuransi kendaraan Swedia

  • Setiap baris merepresentasikan satu wilayah geografis di Swedia.
  • Terdapat 63 baris.
n_claims total_payment_sek
108 392.5
19 46.2
13 15.7
124 422.2
40 119.4
... ...
Pengantar Regresi dengan statsmodels di Python

Statistik deskriptif

import pandas as pd
print(swedish_motor_insurance.mean())
n_claims             22.904762
total_payment_sek    98.187302
dtype: float64
print(swedish_motor_insurance['n_claims'].corr(swedish_motor_insurance['total_payment_sek']))
0.9128782350234068
Pengantar Regresi dengan statsmodels di Python

Apa itu regresi?

  • Model statistik untuk mengeksplorasi hubungan antara variabel respons dan variabel penjelas.
  • Dengan nilai variabel penjelas, Anda dapat memprediksi nilai variabel respons.
n_claims total_payment_sek
108 3925
19 462
13 157
124 4222
40 1194
200 ???
Pengantar Regresi dengan statsmodels di Python

Istilah kunci

Variabel respons (alias variabel dependen)

Variabel yang ingin diprediksi.

Variabel penjelas (alias variabel independen)

Variabel yang menjelaskan bagaimana variabel respons berubah.

Pengantar Regresi dengan statsmodels di Python

Regresi linear dan regresi logistik

Regresi linear

  • Variabel respons bertipe numerik.

Regresi logistik

  • Variabel respons bertipe logikal.

Regresi linear/logistik sederhana

  • Hanya ada satu variabel penjelas.
Pengantar Regresi dengan statsmodels di Python

Memvisualisasikan pasangan variabel

import matplotlib.pyplot as plt
import seaborn as sns

sns.scatterplot(x="n_claims",
                y="total_payment_sek",    
                data=swedish_motor_insurance)

plt.show()

Diagram sebar total pembayaran vs jumlah klaim. Pembayaran naik seiring bertambahnya klaim.

Pengantar Regresi dengan statsmodels di Python

Menambahkan garis tren linear

sns.regplot(x="n_claims",
            y="total_payment_sek",
            data=swedish_motor_insurance,
            ci=None)

Diagram sebar yang sama, kini dengan garis tren dari regresi linear. Garis pas cukup baik.

Pengantar Regresi dengan statsmodels di Python

Alur kursus

Bab 1

Visualisasi dan pemodelan regresi linear.

Bab 2

Memprediksi dari model regresi linear dan memahami koefisien.

Bab 3

Menilai kualitas model regresi linear.

Bab 4

Sama lagi, tetapi dengan model regresi logistik.

Pengantar Regresi dengan statsmodels di Python

Pustaka Python untuk regresi

statsmodels

  • Dioptimalkan untuk wawasan (fokus kursus ini)

scikit-learn

  • Dioptimalkan untuk prediksi (fokus di kursus DataCamp lain)
Pengantar Regresi dengan statsmodels di Python

Ayo berlatih!

Pengantar Regresi dengan statsmodels di Python

Preparing Video For Download...