Hoe logistische regressie werkt

Intermediary Regression in R

Richie Cotton

Data Evangelist at DataCamp

Som van kwadraten werkt niet

sum((y_pred - y_actual) ^ 2)

y_actual is altijd 0 of 1.

y_pred ligt tussen 0 en 1.

Er is een betere maatstaf dan de som van kwadraten.

Intermediary Regression in R

Likelihood

    y_pred * y_actual
Intermediary Regression in R

Likelihood

    y_pred * y_actual + (1 - y_pred) * (1 - y_actual)
Intermediary Regression in R

Likelihood

sum(y_pred * y_actual + (1 - y_pred) * (1 - y_actual))

Als y_actual = 1

y_pred * 1 + (1 - y_pred) * (1 - 1) = y_pred

Als y_actual = 0

y_pred * 0 + (1 - y_pred) * (1 - 0) = 1 - y_pred
Intermediary Regression in R

Log-likelihood

  • Likelihood berekenen telt veel heel kleine getallen op, wat numerieke fouten kan geven.
  • Log-likelihood is makkelijker te berekenen.
log(y_pred) * y_actual + log(1 - y_pred) * (1 - y_actual)

Beide formules geven hetzelfde resultaat.

Intermediary Regression in R

Negatieve log-likelihood

Het maximaliseren van de log-likelihood is hetzelfde als het minimaliseren van de negatieve log-likelihood.

-sum(log_likelihoods)
Intermediary Regression in R

Algoritme voor logistische regressie

calc_neg_log_likelihood <- function(coeffs) {

intercept <- coeffs[1] slope <- coeffs[2]
# Meer berekeningen!
}
optim(
  par = ???,
  fn = ???
)
Intermediary Regression in R

Laten we oefenen!

Intermediary Regression in R

Preparing Video For Download...