Regresi logistik untuk probabilitas gagal bayar

Pemodelan Risiko Kredit dengan Python

Michael Crabtree

Data Scientist, Ford Motor Company

Probabilitas gagal bayar

  • Peluang seseorang gagal bayar pinjaman adalah probabilitas gagal bayar
  • Nilai probabilitas antara 0 dan 1 seperti 0.86
  • loan_status bernilai 1 berarti gagal bayar, 0 berarti tidak gagal bayar
Pemodelan Risiko Kredit dengan Python

Probabilitas gagal bayar

  • Peluang seseorang gagal bayar pinjaman adalah probabilitas gagal bayar
  • Nilai probabilitas antara 0 dan 1 seperti 0.86
  • loan_status bernilai 1 berarti gagal bayar, 0 berarti tidak gagal bayar
Probabilitas Gagal Bayar Interpretasi Status pinjaman terprediksi
0.4 Kecil kemungkinan gagal bayar 0
0.90 Sangat mungkin gagal bayar 1
0.1 Sangat kecil kemungkinan gagal bayar 0
Pemodelan Risiko Kredit dengan Python

Memprediksi probabilitas

  • Probabilitas gagal bayar sebagai keluaran machine learning
    • Belajar dari kolom data (fitur)
  • Model klasifikasi (gagal bayar, tidak)
  • Dua model paling umum:
    • Regresi logistik
    • Decision tree

Contoh regresi logistik dan decision tree

Pemodelan Risiko Kredit dengan Python

Regresi logistik

  • Mirip regresi linear, tetapi hanya menghasilkan nilai antara 0 dan 1

Rumus regresi linear dan regresi logistik

Grafik contoh regresi linear dan regresi logistik

Pemodelan Risiko Kredit dengan Python

Melatih regresi logistik

  • Regresi logistik tersedia di paket scikit-learn
from sklearn.linear_model import LogisticRegression
  • Dipanggil sebagai fungsi dengan atau tanpa parameter
clf_logistic = LogisticRegression(solver='lbfgs')
  • Gunakan metode .fit() untuk melatih
clf_logistic.fit(training_columns, np.ravel(training_labels))
  • Kolom pelatihan: semua kolom data kecuali loan_status
  • Label: loan_status (0,1)
Pemodelan Risiko Kredit dengan Python

Pelatihan dan pengujian

  • Seluruh data biasanya dibagi dua bagian
Pemodelan Risiko Kredit dengan Python

Pelatihan dan pengujian

  • Seluruh data biasanya dibagi dua bagian
Subset Data Penggunaan Porsi
Train Belajar dari data untuk membuat prediksi 60%
Test Menguji pembelajaran pada data baru yang belum terlihat 40%
Pemodelan Risiko Kredit dengan Python

Membuat set train dan test

  • Pisahkan data menjadi kolom pelatihan dan label
X = cr_loan.drop('loan_status', axis = 1)
y = cr_loan[['loan_status']]
  • Gunakan fungsi train_test_split() dari scikit-learn
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=.4, random_state=123)
  • test_size: persentase data untuk set uji
  • random_state: nilai seed acak untuk reprodusibilitas
Pemodelan Risiko Kredit dengan Python

Ayo berlatih!

Pemodelan Risiko Kredit dengan Python

Preparing Video For Download...