De logistische verdeling

Intermediary Regression in R

Richie Cotton

Data Evangelist at DataCamp

Gaussische dichtheidsfunctie (PDF)

gaussian_distn <- tibble(
  x = seq(-4, 4, 0.05),
  gauss_pdf_x = dnorm(x)
)
ggplot(gaussian_distn, aes(x, gauss_pdf_x)) +
  geom_line()

lijn-gauss-pdf.png

Intermediary Regression in R

Gaussische cumulatieve verdelingsfunctie (CDF)

gaussian_distn <- tibble(
  x = seq(-4, 4, 0.05),
  gauss_pdf_x = dnorm(x),
  gauss_cdf_x = pnorm(x)
)
ggplot(gaussian_distn, aes(x, gauss_cdf_x)) +
  geom_line()

lijn-gauss-cdf.png

Intermediary Regression in R

Gaussische inverse CDF

gaussian_distn_inv <- tibble(
  p = seq(0.001, 0.999, 0.001),
  gauss_inv_cdf_p = qnorm(p)
)
ggplot(gaussian_distn_inv, aes(p, gauss_inv_cdf_p)) +
  geom_line()

lijn-gauss-icdf.png

Intermediary Regression in R

Namen van verdelingsfuncties

curve prefix normaal logistisch ezelsbrug
PDF d dnorm() dlogis() "d" van differentiëren – je differentieert de CDF om de PDF te krijgen
CDF p pnorm() plogis() "p" staat achterstevoren voor "q" dus het is de inverse van de inverse CDF
Inv. CDF q qnorm() qlogis() "q" van kwantiel
Intermediary Regression in R

Het family-argument van glm()

lm(response ~ explanatory, data = dataset)

glm(response ~ explanatory, data = dataset, family = gaussian)
glm(response ~ explanatory, data = dataset, family = binomial)
1 https://campus.datacamp.com/courses/introduction-to-regression-in-r/simple-logistic-regression?ex=1
Intermediary Regression in R

gaussian()

str(gaussian())
List of 11
 $ family    : chr "gaussian"
 $ link      : chr "identity"
 $ linkfun   :function (mu)  
 $ linkinv   :function (eta)  
 $ variance  :function (mu)  
 $ dev.resids:function (y, mu, wt)  
 $ aic       :function (y, n, mu, wt, dev)  
 $ mu.eta    :function (eta)  
 $ initialize:  expression({  n <- rep.int(1, nobs)  if (is.null(etastart) && is.null(start) &&
     is.null(mustart) &&  ((family$link| __truncated__
 $ validmu   :function (mu)  
 $ valideta  :function (eta)  
 - attr(*, "class")= chr "family"
Intermediary Regression in R

linkfun en linkinv

De linkfunctie is een transformatie van de responsvariabele

gaussian()$linkfun
function (mu) 
mu
gaussian()$linkinv
function (eta) 
eta
Intermediary Regression in R

Logistische PDF

logistic_distn <- tibble(
  x = seq(-6, 6, 0.05),
  logistic_pdf_x = dlogis(x)
)
ggplot(logistic_distn, aes(x, logistic_pdf_x)) +
  geom_line()

lijn-logistic-pdf.png

Intermediary Regression in R

Logistische verdeling

  • De CDF van de logistische verdeling heet ook de logistische functie.
  • $\text{cdf}(x) = \frac{1}{(1 + exp(-x))}$

  • De inverse CDF van de logistische verdeling heet ook de logitfunctie.

  • $\text{inverse\_cdf}(p) = log(\frac{p}{(1 - p)})$
Intermediary Regression in R

Laten we oefenen!

Intermediary Regression in R

Preparing Video For Download...