Une histoire de deux variables

Introduction à la régression dans R

Richie Cotton

Data Evangelist at DataCamp

Données relatives à l'assurance automobile en Suède

  • Chaque ligne représente une région géographique de la Suède.
  • Il y a 63 lignes.
n_claims total_payment_sek
108 392,5
19 46,2
13 15,7
124 422,2
40 119,4
... ...
Introduction à la régression dans R

Statistiques descriptives

library(dplyr)
swedish_motor_insurance %>% 
  summarize_all(mean)
# A tibble: 1 x 2
  n_claims total_payment_sek
     <dbl>             <dbl>
1     22.9              98.2
swedish_motor_insurance %>% 
  summarize(
    correlation = cor(n_claims, total_payment_sek)
  )
# A tibble: 1 x 1
  correlation
        <dbl>
1       0.881
Introduction à la régression dans R

Qu'est-ce que la régression ?

  • Modèles statistiques permettant d'étudier la relation entre une variable de réponse et certaines variables explicatives.
  • À partir des valeurs des variables explicatives, il est possible de prédire les valeurs de la variable de réponse.
n_claims total_payment_sek
108 392,5
19 46,2
13 15,7
124 422,2
40 119,4
200 ???
Introduction à la régression dans R

Jargon

Variable de réponse (également appelée variable dépendante)

La variable que vous souhaitez prédire.

Variables explicatives (également appelées variables indépendantes)

Les variables qui expliquent comment la variable de réponse évoluera.

Introduction à la régression dans R

Régression linéaire et régression logistique

Régression linéaire

  • La variable de réponse est numérique.

Régression logistique

  • La variable de réponse est logique.

Régression linéaire/logistique simple

  • Il n'existe qu'une seule variable explicative.
Introduction à la régression dans R

Visualisation de paires de variables

library(ggplot2)

ggplot(
  swedish_motor_insurance, 
  aes(n_claims, total_payment_sek)
) +
  geom_point()

Un diagramme en nuage de points représentant le paiement total par rapport au nombre de réclamations. Le paiement augmente à mesure que le nombre de réclamations augmente.

Introduction à la régression dans R

Ajout d’une courbe de tendance linéaire

library(ggplot2)

ggplot(
  swedish_motor_insurance, 
  aes(n_claims, total_payment_sek)
) +
  geom_point() +
  geom_smooth(
    method = "lm", 
    se = FALSE
  )

Le même diagramme en nuage de points que précédemment, avec une courbe de tendance supplémentaire calculée par régression linéaire. Il offre un ajustement satisfaisant aux données.

Introduction à la régression dans R

Déroulement du cours

Chapitre 1

Visualisation et ajustement de modèles de régression linéaire.

Chapitre 2

Réalisation de prévisions à partir de modèles de régression linéaire et compréhension des coefficients des modèles.

Chapitre 3

Évaluation de la qualité du modèle de régression linéaire.

Chapitre 4

De nouveau, mais avec des modèles de régression logistique

Introduction à la régression dans R

Passons à la pratique !

Introduction à la régression dans R

Preparing Video For Download...