Les statistiques, qu’est-ce que c’est ?

Introduction aux statistiques en Python

Maggie Matsui

Content Developer, DataCamp

Les statistiques, qu’est-ce que c’est ?

  • Le domaine des statistiques : la pratique et l’étude de la collecte et de l’analyse des données

  • Une statistique récapitulative : un résumé de certaines données ou un fait les concernant

Introduction aux statistiques en Python

Que peuvent faire les statistiques ?

Les statistiques, qu’est-ce que c’est ?

  • Le domaine des statistiques : la pratique et l’étude de la collecte et de l’analyse des données

  • Une statistique récapitulative : un résumé de certaines données ou un fait les concernant

Que peuvent faire les statistiques ?

  • Quelle est la probabilité qu’une personne achète un produit ? Cette probabilité augmente-t-elle si un autre système de paiement est proposé ?
  • Combien d’occupants votre hôtel comptera-t-il ? Comment optimiser son taux d’occupation ?
  • Combien de tailles de jeans faut-il fabriquer pour couvrir 95 % de la population ? Faut-il produire la même quantité dans chaque taille ?
  • Tests A/B : Quelle publicité est la plus efficace pour inciter à l’achat d’un produit ?
Introduction aux statistiques en Python

Qu’est-ce que les statistiques ne peuvent pas faire ?

  • Pourquoi Game of Thrones est-il si populaire ?

Au lieu de cela...

  • Les séries comportant des scènes plus violentes sont-elles plus populaires ?

Mais...

  • Cela ne nous permet pas de savoir si des scènes plus violentes donnent lieu à plus de vues
Introduction aux statistiques en Python

Types de statistiques

Statistiques descriptives

  • Décrivent et résument les données

2 voitures, 1 bus, 1 vélo

  • 50 % d’amis se rendent au travail en voiture
  • 25 % prennent le bus
  • 25 % prennent le vélo

Statistiques inférentielles

  • Utilisent un échantillon pour faire des déductions sur une population plus large

2 voitures, 1 bus, 1 vélo entourés d’autres voitures, bus et vélos

Quel pourcentage de personnes prennent la voiture ?

Introduction aux statistiques en Python

Types de données

Numérique (quantitative)

  • Continue (mesurée)
    • Vitesse d’un avion
    • Temps passé dans une file d’attente
  • Discrète (comptée)
    • Nombre d’animaux domestiques
    • Nombre de colis expédiés

Catégorielle (qualitative)

  • Nominale (non ordonnée)
    • Marié(e)/non marié(e)
    • Pays de résidence
  • Ordinale (ordonnée)

pas du tout d’accord/plutôt pas d’accord/ni d’accord ni pas d’accord/plutôt d’accord/tout à fait d’accord

Introduction aux statistiques en Python

Les données catégorielles peuvent être représentées par des nombres

Nominale (non ordonnée)

  • Marié(e)/non marié(e) (1/0)
  • Pays de résidence (1, 2, ...)

Ordinale (ordonnée)

  • Pas du tout d’accord (1)
  • Plutôt pas d’accord (2)
  • Ni d’accord ni pas d’accord (3)
  • Plutôt d’accord (4)
  • Tout à fait d’accord (5)
Introduction aux statistiques en Python

Importance du type de données

Statistiques récapitulatives
import numpy as np
np.mean(car_speeds['speed_mph'])
40.09062
Graphiques

diagramme en nuages de points de la vitesse d’une voiture en fonction de son poids

Introduction aux statistiques en Python

Pourquoi le type de données est important

Statistiques récapitulatives
demographics['marriage_status'].value_counts()
single      188
married     143
divorced    124
dtype: int64
Graphiques

graphique en barres de dénombrement pat situation matrimoniale

Introduction aux statistiques en Python

Passons à la pratique !

Introduction aux statistiques en Python

Preparing Video For Download...