Por que usar regressão logística

Introdução à Regressão em R

Richie Cotton

Data Evangelist at DataCamp

Dataset de churn bancário

has_churned time_since_first_purchase time_since_last_purchase
0 0.3993247 -0.5158691
1 -0.4297957 0.6780654
0 3.7383122 0.4082544
0 0.6032289 -0.6990435
... ... ...
response tempo de relacionamento recência de atividade
1 https://www.rdocumentation.org/packages/bayesQR/topics/Churn
Introdução à Regressão em R

Churn vs. recência: modelo linear

mdl_churn_vs_recency_lm <- lm(has_churned ~ time_since_last_purchase, data = churn)
Call:
lm(formula = has_churned ~ time_since_last_purchase, data = churn)

Coefficients:
             (Intercept)  time_since_last_purchase  
                 0.49078                   0.06378 
coeffs <- coefficients(mdl_churn_vs_recency_lm)
intercept <- coeffs[1]
slope <- coeffs[2]
Introdução à Regressão em R

Visualizando o modelo linear

ggplot(
  churn, 
  aes(time_since_last_purchase, has_churned)
) +
  geom_point() +
  geom_abline(intercept = intercept, slope = slope)

Previsões são probabilidades de churn, não quantidades de churn.

Um dispersograma de churn (sim/não) vs. tempo desde a última compra. Todos os pontos estão em y=0 ou y=1. Uma linha linear mostra a probabilidade de churn aumentando com o tempo.

Introdução à Regressão em R

Afastando o zoom

ggplot(
  churn, 
  aes(days_since_last_purchase, has_churned)
) +
  geom_point() +
  geom_abline(intercept = intercept, slope = slope) +
  xlim(-10, 10) +
  ylim(-0.2, 1.2)

O mesmo gráfico de churn vs. tempo desde a última compra. Com os eixos mais abertos, a linha linear vai abaixo de y=0 e acima de y=1, o que não deveria acontecer.

Introdução à Regressão em R

O que é regressão logística?

  • Outro tipo de modelo linear generalizado.
  • Usado quando a variável resposta é booleana.
  • As respostas seguem uma curva logística (em S).
Introdução à Regressão em R

Regressão linear com glm()

glm(has_churned ~ time_since_last_purchase, data = churn, family = gaussian)
Call:  glm(formula = has_churned ~ time_since_last_purchase, family = gaussian, 
    data = churn)

Coefficients:
             (Intercept)  time_since_last_purchase  
                 0.49078                   0.06378  

Degrees of Freedom: 399 Total (i.e. Null);  398 Residual
Null Deviance:        100 
Residual Deviance: 98.02     AIC: 578.7
Introdução à Regressão em R

Regressão logística: glm() com família binomial

mdl_recency_glm <- glm(has_churned ~ time_since_last_purchase, data = churn, family = binomial)
Call:  glm(formula = has_churned ~ time_since_last_purchase, family = binomial, 
    data = churn)

Coefficients:
             (Intercept)  time_since_last_purchase  
                -0.03502                   0.26921  

Degrees of Freedom: 399 Total (i.e. Null);  398 Residual
Null Deviance:        554.5 
Residual Deviance: 546.4     AIC: 550.4
Introdução à Regressão em R

Visualizando o modelo logístico

ggplot(
  churn, 
  aes(time_since_last_purchase, has_churned)
) +
  geom_point() +
  geom_abline(
    intercept = intercept, slope = slope
  ) +
  geom_smooth(
    method = "glm", 
    se = FALSE, 
    method.args = list(family = binomial)
  )

Um dispersograma de churn (sim/não) vs. tempo desde a última compra. Linhas de tendência linear e logística mostram aumento da probabilidade de churn com o tempo. As linhas são semelhantes, exceto em tempos muito altos desde a última compra.

Introdução à Regressão em R

Afastando o zoom

O mesmo gráfico de churn vs. tempo desde a última compra, com as duas linhas de tendência. Os eixos estão mais abertos, mostrando que a curva logística nunca sai do intervalo de 0 a 1 de churn.

Introdução à Regressão em R

Vamos praticar!

Introdução à Regressão em R

Preparing Video For Download...