Les statistiques, qu’est-ce que c’est ?

Introduction aux statistiques en R

Maggie Matsui

Content Developer, DataCamp

Les statistiques, qu’est-ce que c’est ?

  • Le domaine des statistiques : la pratique et l’étude de la collecte et de l’analyse des données

  • Une statistique récapitulative : un résumé de certaines données ou un fait les concernant

Introduction aux statistiques en R

Les statistiques, qu’est-ce que c’est ?

  • Le domaine des statistiques : la pratique et l’étude de la collecte et de l’analyse des données

  • Une statistique récapitulative : un résumé de certaines données ou un fait les concernant

Que peuvent faire les statistiques ?

  • Quelle est la probabilité qu’une personne achète un produit ? Cette probabilité augmente-t-elle si un autre système de paiement est proposé ?
  • Combien d’occupants votre hôtel comptera-t-il ? Comment optimiser son taux d’occupation ?
  • Combien de tailles de jeans faut-il fabriquer pour couvrir 95 % de la population ? Faut-il produire la même quantité dans chaque taille ?
  • Tests A/B : Quelle publicité est la plus efficace pour inciter à l’achat d’un produit ?
Introduction aux statistiques en R

Qu’est-ce que les statistiques ne peuvent pas faire ?

  • Pourquoi Game of Thrones est-il si populaire ?

Au lieu de cela...

  • Les séries comportant des scènes plus violentes sont-elles plus populaires ?

Mais...

  • Cela ne nous permet pas de savoir si des scènes plus violentes donnent lieu à plus de vues
Introduction aux statistiques en R

Types de statistiques

Statistiques descriptives

  • Décrivent et résument les données

2 voitures, 1 bus, 1 vélo

  • 50 % d’amis se rendent au travail en voiture
  • 25 % prennent le bus
  • 25 % prennent le vélo

Statistiques inférentielles

  • Utilisent un échantillon pour faire des déductions sur une population plus large

2 voitures, 1 bus, 1 vélo entourés d’autres voitures, bus et vélos

Quel pourcentage de personnes prennent la voiture ?

Introduction aux statistiques en R

Types de données

Numérique (quantitative)

  • Continue (mesurée)
    • Vitesse d’un avion
    • Temps passé dans une file d’attente
  • Discrète (comptée)
    • Nombre d’animaux domestiques
    • Nombre de colis expédiés

Catégorielle (qualitative)

  • Nominale (non ordonnée)
    • Marié(e)/non marié(e)
    • Pays de résidence
  • Ordinale (ordonnée)

pas du tout d’accord/plutôt pas d’accord/ni d’accord ni pas d’accord/plutôt d’accord/tout à fait d’accord

Introduction aux statistiques en R

Les données catégorielles peuvent être représentées par des nombres

Nominale (non ordonnée)

  • Marié(e)/non marié(e) (1/0)
  • Pays de résidence (1, 2, ...)

Ordinale (ordonnée)

  • Pas du tout d’accord (1)
  • Plutôt pas d’accord (2)
  • Ni d’accord ni pas d’accord (3)
  • Plutôt d’accord (4)
  • Tout à fait d’accord (5)
Introduction aux statistiques en R

Importance du type de données

Statistiques récapitulatives
car_speeds %>% 
  summarize(avg_speed = mean(speed_mph))
  avg_speed
1  40.09062
Graphiques

diagramme en nuages de points de la vitesse d’une voiture en fonction de son poids

Introduction aux statistiques en R

Pourquoi le type de données est important

Statistiques récapitulatives
demographics %>% 
  count(marriage_status)
  marriage_status     n
1          single   188
2         married   143
3        divorced   124
Graphiques

graphique en barres de dénombrement pat situation matrimoniale

Introduction aux statistiques en R

Passons à la pratique !

Introduction aux statistiques en R

Preparing Video For Download...