Mengapa Anda memerlukan regresi logistik

Pengantar Regresi di R

Richie Cotton

Data Evangelist at DataCamp

Dataset churn bank

has_churned time_since_first_purchase time_since_last_purchase
0 0.3993247 -0.5158691
1 -0.4297957 0.6780654
0 3.7383122 0.4082544
0 0.6032289 -0.6990435
... ... ...
response lama hubungan kebaruan aktivitas
1 https://www.rdocumentation.org/packages/bayesQR/topics/Churn
Pengantar Regresi di R

Churn vs. kebaruan: model linear

mdl_churn_vs_recency_lm <- lm(has_churned ~ time_since_last_purchase, data = churn)
Call:
lm(formula = has_churned ~ time_since_last_purchase, data = churn)

Coefficients:
             (Intercept)  time_since_last_purchase  
                 0.49078                   0.06378 
coeffs <- coefficients(mdl_churn_vs_recency_lm)
intercept <- coeffs[1]
slope <- coeffs[2]
Pengantar Regresi di R

Memvisualisasikan model linear

ggplot(
  churn, 
  aes(time_since_last_purchase, has_churned)
) +
  geom_point() +
  geom_abline(intercept = intercept, slope = slope)

Prediksi adalah probabilitas churn, bukan jumlah churn.

Plot sebar apakah pelanggan churn vs waktu sejak pembelian terakhir. Semua titik berada pada garis y = 0 atau y = 1. Garis tren linear menunjukkan probabilitas churn meningkat saat waktu sejak pembelian terakhir naik.

Pengantar Regresi di R

Perbesar keluar

ggplot(
  churn, 
  aes(days_since_last_purchase, has_churned)
) +
  geom_point() +
  geom_abline(intercept = intercept, slope = slope) +
  xlim(-10, 10) +
  ylim(-0.2, 1.2)

Plot sebar churn vs waktu sejak pembelian terakhir. Sumbu dizoom keluar dibanding sebelumnya, menunjukkan garis tren melampaui y = 0 dan y = 1, yang seharusnya mustahil.

Pengantar Regresi di R

Apa itu regresi logistik?

  • Jenis lain dari generalized linear model.
  • Digunakan saat variabel respons bersifat logis (biner).
  • Respons mengikuti kurva logistik (berbentuk S).
Pengantar Regresi di R

Regresi linear dengan glm()

glm(has_churned ~ time_since_last_purchase, data = churn, family = gaussian)
Call:  glm(formula = has_churned ~ time_since_last_purchase, family = gaussian, 
    data = churn)

Coefficients:
             (Intercept)  time_since_last_purchase  
                 0.49078                   0.06378  

Degrees of Freedom: 399 Total (i.e. Null);  398 Residual
Null Deviance:        100 
Residual Deviance: 98.02     AIC: 578.7
Pengantar Regresi di R

Regresi logistik: glm() dengan keluarga binomial

mdl_recency_glm <- glm(has_churned ~ time_since_last_purchase, data = churn, family = binomial)
Call:  glm(formula = has_churned ~ time_since_last_purchase, family = binomial, 
    data = churn)

Coefficients:
             (Intercept)  time_since_last_purchase  
                -0.03502                   0.26921  

Degrees of Freedom: 399 Total (i.e. Null);  398 Residual
Null Deviance:        554.5 
Residual Deviance: 546.4     AIC: 550.4
Pengantar Regresi di R

Memvisualisasikan model logistik

ggplot(
  churn, 
  aes(time_since_last_purchase, has_churned)
) +
  geom_point() +
  geom_abline(
    intercept = intercept, slope = slope
  ) +
  geom_smooth(
    method = "glm", 
    se = FALSE, 
    method.args = list(family = binomial)
  )

Plot sebar apakah pelanggan churn vs waktu sejak pembelian terakhir. Garis tren linear dan logistik ditampilkan; keduanya menunjukkan probabilitas churn meningkat saat waktu sejak pembelian terakhir naik. Kedua garis hampir berimpit kecuali pada nilai waktu yang sangat tinggi.

Pengantar Regresi di R

Perbesar keluar

Plot sebar churn vs waktu sejak pembelian terakhir, dengan kedua garis tren. Sumbu dizoom keluar dibanding sebelumnya, menunjukkan garis logistik tidak pernah keluar dari rentang churn 0 hingga 1.

Pengantar Regresi di R

Ayo berlatih!

Pengantar Regresi di R

Preparing Video For Download...