Tahminler ve oranlar

R'da Regresyona Giriş

Richie Cotton

Data Evangelist at DataCamp

ggplot ile tahminler

plt_churn_vs_recency_base <- ggplot(
  churn, 
  aes(time_since_last_purchase, has_churned)
) +
  geom_point() +
  geom_smooth(
    method = "glm", 
    se = FALSE, 
    method.args = list(family = binomial)
  )

Son satın alımdan beri geçen süreye karşı ayrılma saçılım grafiği, lojistik eğilim çizgisiyle.

R'da Regresyona Giriş

Tahmin yapma

mdl_recency <- glm(
  has_churned ~ time_since_last_purchase, data = churn, family = "binomial"
)
explanatory_data <- tibble(
  time_since_last_purchase = seq(-1, 6, 0.25)
)
prediction_data <- explanatory_data %>% 
  mutate(
    has_churned = predict(mdl_recency, explanatory_data, type = "response")
  )
R'da Regresyona Giriş

Nokta tahminleri ekleme

plt_churn_vs_recency_base +
  geom_point(
    data = prediction_data, 
    color = "blue"
  )

Son satın alımdan beri geçen süreye karşı ayrılma dağılım grafiği, lojistik eğilim çizgisiyle. Grafik, predict() sonuçlarıyla açıklamalı; noktalar eğilim çizgisini tam izler.

R'da Regresyona Giriş

En olası sonucu alma

prediction_data <- explanatory_data %>% 
  mutate(
    has_churned = predict(mdl_recency, explanatory_data, type = "response"),
    most_likely_outcome = round(has_churned)
  )
R'da Regresyona Giriş

En olası sonucu görselleştirme

plt_churn_vs_recency_base +
  geom_point(
    aes(y = most_likely_outcome),
    data = prediction_data,
    color = "green"
  )

Son satın alımdan beri geçen süreye karşı ayrılma dağılım grafiği, lojistik eğilim çizgisiyle. Grafik, en olası sonuçlarla açıklamalı. Kısa sürelerde en olası sonuç ayrılmama; uzun sürelerde ayrılmadır.

R'da Regresyona Giriş

Oranlar (odds)

"Oran" (odds), bir olayın olma olasılığının olmama olasılığına oranıdır.

$$ odds\_ratio = \frac{probability}{(1 - probability)} $$

$$ odds\_ratio = \frac{0.25}{(1 - 0.25)} = \frac{1}{3} $$

Olasılığa karşı oran grafiği. Olasılık bire yaklaştıkça eğri sonsuza asimptotik artar.

R'da Regresyona Giriş

Oran hesaplama

prediction_data <- explanatory_data %>%
  mutate(
    has_churned = predict(mdl_recency, explanatory_data, type = "response"),
    most_likely_response = round(has_churned),
    odds_ratio = has_churned / (1 - has_churned)
  )
R'da Regresyona Giriş

Oranları görselleştirme

ggplot(
  prediction_data, 
  aes(time_since_last_purchase, odds_ratio)
) +
  geom_line() +
  geom_hline(yintercept = 1, linetype = "dotted")

Son satın alımdan beri geçen süreye karşı oran grafiği, oran=1 yatay çizgisiyle. Kısa sürelerde en olası sonuç ayrılmama. Süre arttıkça ayrılma oranı artar, ayrılmamaya göre beş kata kadar çıkar.

R'da Regresyona Giriş

Log oranları görselleştirme

ggplot(
  prediction_data, 
  aes(time_since_last_purchase, odds_ratio)
) +
  geom_line() +
  geom_hline(yintercept = 1, linetype = "dotted") +
  scale_y_log10()

Son satın alımdan beri geçen süreye karşı oran grafiği, oran=1 çizgisiyle. Y ekseni logaritmik; oran eğrisi doğrusal görünür.

R'da Regresyona Giriş

Log oranları hesaplama

prediction_data <- explanatory_data %>%
  mutate(
    has_churned = predict(mdl_recency, explanatory_data, type = "response"),
    most_likely_response = round(has_churned),
    odds_ratio = has_churned / (1 - has_churned),
    log_odds_ratio = log(odds_ratio),
    log_odds_ratio2 = predict(mdl_recency, explanatory_data)
  )
R'da Regresyona Giriş

Tüm tahminler bir arada

tm_snc_lst_prch has_churned most_lkly_rspns odds_ratio log_odds_ratio log_odds_ratio2
0 0.491 0 0.966 -0.035 -0.035
2 0.623 1 1.654 0.503 0.503
4 0.739 1 2.834 1.042 1.042
6 0.829 1 4.856 1.580 1.580
... ... ... ... ... ...
R'da Regresyona Giriş

Ölçeklerin karşılaştırması

Ölçek Değerler yorumlaması kolay mı? Değişimler yorumlaması kolay mı? Kesin mi?
Olasılık
En olası sonuç ✔✔
Oran (odds)
Log oran
R'da Regresyona Giriş

Haydi pratik yapalım!

R'da Regresyona Giriş

Preparing Video For Download...