Uma história de duas variáveis

Introdução à Regressão em R

Richie Cotton

Data Evangelist at DataCamp

Dados de seguro auto sueco

  • Cada linha representa uma região da Suécia.
  • Há 63 linhas.
n_claims total_payment_sek
108 392.5
19 46.2
13 15.7
124 422.2
40 119.4
... ...
Introdução à Regressão em R

Estatísticas descritivas

library(dplyr)
swedish_motor_insurance %>% 
  summarize_all(mean)
# A tibble: 1 x 2
  n_claims total_payment_sek
     <dbl>             <dbl>
1     22.9              98.2
swedish_motor_insurance %>% 
  summarize(
    correlation = cor(n_claims, total_payment_sek)
  )
# A tibble: 1 x 1
  correlation
        <dbl>
1       0.881
Introdução à Regressão em R

O que é regressão?

  • Modelos estatísticos para explorar a relação entre uma variável resposta e variáveis explicativas.
  • Dado o valor das explicativas, você pode prever a resposta.
n_claims total_payment_sek
108 392.5
19 46.2
13 15.7
124 422.2
40 119.4
200 ???
Introdução à Regressão em R

Jargão

Variável resposta (também chamada dependente)

A variável que você quer prever.

Variáveis explicativas (também chamadas independentes)

As variáveis que explicam como a variável resposta muda.

Introdução à Regressão em R

Regressão linear e logística

Regressão linear

  • A variável resposta é numérica.

Regressão logística

  • A variável resposta é lógica.

Regressão linear/logística simples

  • Há apenas uma variável explicativa.
Introdução à Regressão em R

Visualizando pares de variáveis

library(ggplot2)

ggplot(
  swedish_motor_insurance, 
  aes(n_claims, total_payment_sek)
) +
  geom_point()

Um diagrama de dispersão do pagamento total versus o número de sinistros. O pagamento aumenta conforme os sinistros aumentam.

Introdução à Regressão em R

Adicionando uma linha de tendência linear

library(ggplot2)

ggplot(
  swedish_motor_insurance, 
  aes(n_claims, total_payment_sek)
) +
  geom_point() +
  geom_smooth(
    method = "lm", 
    se = FALSE
  )

O mesmo gráfico de dispersão anterior, agora com uma linha de tendência adicionada via regressão linear. Ela se ajusta bem aos dados.

Introdução à Regressão em R

Fluxo do curso

Capítulo 1

Visualizar e ajustar modelos de regressão linear.

Capítulo 2

Fazer previsões com regressão linear e entender coeficientes.

Capítulo 3

Avaliar a qualidade do modelo linear.

Capítulo 4

O mesmo com modelos de regressão logística.

Introdução à Regressão em R

Vamos praticar!

Introdução à Regressão em R

Preparing Video For Download...