Previsões e odds

Introdução à Regressão com statsmodels em Python

Maarten Van den Broeck

Content Developer at DataCamp

Previsões do regplot()

sns.regplot(x="time_since_last_purchase",
            y="has_churned",
            data=churn,
            ci=None,
            logistic=True)

plt.show()

Dispersão de churn vs. tempo desde a última compra, com linha logística.

Introdução à Regressão com statsmodels em Python

Fazendo previsões

mdl_recency = logit("has_churned ~ time_since_last_purchase",
                    data = churn).fit()


explanatory_data = pd.DataFrame( {"time_since_last_purchase": np.arange(-1, 6.25, 0.25)})
prediction_data = explanatory_data.assign( has_churned = mdl_recency.predict(explanatory_data))
Introdução à Regressão com statsmodels em Python

Adicionando previsões pontuais

sns.regplot(x="time_since_last_purchase",
            y="has_churned",
            data=churn,
            ci=None,
            logistic=True)

sns.scatterplot(x="time_since_last_purchase",
                y="has_churned",
                data=prediction_data,
                color="red")

plt.show()

Dispersão de churn vs. tempo desde a última compra, com linha logística. O gráfico é anotado com os resultados de predict(), que seguem exatamente a linha.

Introdução à Regressão com statsmodels em Python

Obtendo o resultado mais provável

prediction_data = explanatory_data.assign(
    has_churned = mdl_recency.predict(explanatory_data))

prediction_data["most_likely_outcome"] = np.round(prediction_data["has_churned"])
Introdução à Regressão com statsmodels em Python

Visualizando o resultado mais provável

sns.regplot(x="time_since_last_purchase",
            y="has_churned",
            data=churn,
            ci=None,
            logistic=True)

sns.scatterplot(x="time_since_last_purchase",
                y="most_likely_outcome",
                data=prediction_data,
                color="red")

plt.show()

Dispersão de churn vs. tempo desde a última compra, com linha logística. O gráfico marca os resultados mais prováveis. Para tempo baixo, o mais provável é não churnar. Para tempo alto, é churnar.

Introdução à Regressão com statsmodels em Python

Odds

Odds é a probabilidade de algo acontecer dividida pela probabilidade de não acontecer.

$$ \text{odds} = \frac{\text{probability}}{(1 - \text{probability)}} $$

$$ \text{odds} = \frac{0.25}{(1 - 0.25)} = \frac{1}{3} $$

Gráfico de linha de odds vs. probabilidade. A curva cresce assimptoticamente ao infinito conforme a probabilidade tende a 1.

Introdução à Regressão com statsmodels em Python

Calculando odds

prediction_data["odds"] = prediction_data["has_churned"] / 
                            (1 - prediction_data["has_churned"])

Introdução à Regressão com statsmodels em Python

Visualizando odds

sns.lineplot(x="time_since_last_purchase",
             y="odds",
             data=prediction_data)


plt.axhline(y=1, linestyle="dotted")
plt.show()

Linha de odds vs. tempo desde a última compra, com linha em odds = 1. Para tempo baixo, o mais provável é não churnar. As odds de churn aumentam com o tempo, até 5× as odds de não churnar.

Introdução à Regressão com statsmodels em Python

Visualizando log-odds

sns.lineplot(x="time_since_last_purchase",
             y="odds",
             data=prediction_data)

plt.axhline(y=1,
            linestyle="dotted")
plt.yscale("log")

plt.show()

Linha de odds vs. tempo desde a última compra, com linha em odds = 1. O eixo y é logarítmico, deixando a curva linear.

Introdução à Regressão com statsmodels em Python

Calculando log-odds

prediction_data["log_odds"] = np.log(prediction_data["odds"])
Introdução à Regressão com statsmodels em Python

Todas as previsões juntas

time_since_last_prchs has_churned most_likely_rspns odds log_odds
0 0.491 0 0.966 -0.035
2 0.623 1 1.654 0.503
4 0.739 1 2.834 1.042
6 0.829 1 4.856 1.580
... ... ... ... ...
Introdução à Regressão com statsmodels em Python

Comparando escalas

Escala Valores fáceis de interpretar? Mudanças fáceis de interpretar? É precisa?
Probabilidade
Resultado mais provável ✔✔
Odds
Log-odds
Introdução à Regressão com statsmodels em Python

Vamos praticar!

Introdução à Regressão com statsmodels em Python

Preparing Video For Download...