Considérations relatives aux données catégorielles

Analyse de données exploratoires en Python

George Boorman

Curriculum Manager, DataCamp

Pourquoi réaliser une analyse EDA ?

  • Détection de modèles et de relations

 

 

  • Formuler des questions ou des hypothèses

 

 

  • Préparation des données pour l'apprentissage automatique

Point d'interrogation en néon rouge

1 Crédit d'image : https://unsplash.com/@simonesecci
Analyse de données exploratoires en Python

Données représentatives

  • L'échantillon représente la population.

Par exemple :

  • Niveau d’étude et revenus aux États-Unis
    • Impossible d'utiliser les données depuis la France

Drapeau américain

Drapeau français

1 Crédit d'image : https://unsplash.com/@cristina_glebova
Analyse de données exploratoires en Python

Classes catégorielles

  • Classes = étiquettes

 

  • Enquête sur les attitudes des personnes à l'égard du mariage
    • État civil
      • Célibataire
      • Marié
      • Divorcé
Analyse de données exploratoires en Python

Déséquilibre des classes

Graphique à barres illustrant le nombre de statuts matrimoniaux dans un échantillon - 700 personnes divorcées, 250 célibataires et 50 mariées

Analyse de données exploratoires en Python

Fréquence des cours

print(planes["Destination"].value_counts())
Cochin       4391
Banglore     2773
Delhi        1219
New Delhi     888
Hyderabad     673
Kolkata       369
Name: Destination, dtype: int64
Analyse de données exploratoires en Python

Fréquence relative des classes

  • 40 % des vols intérieurs indiens ont pour destination Delhi.
planes["Destination"].value_counts(normalize=True)
Cochin       0.425773
Banglore     0.268884
Delhi        0.118200
New Delhi    0.086105
Hyderabad    0.065257
Kolkata      0.035780
Name: Destination, dtype: float64
  • Notre échantillon est-il représentatif de la population (vols intérieurs en Inde) ?
Analyse de données exploratoires en Python

Tableau croisé

Appeler pd-dot-crosstab

pd.crosstab(
Analyse de données exploratoires en Python

Sélectionner l'index

Sélectionnez la colonne à utiliser comme index.

pd.crosstab(planes["Source"],
Analyse de données exploratoires en Python

Sélectionner les colonnes

Sélectionnez la colonne .

pd.crosstab(planes["Source"], planes["Destination"])
Analyse de données exploratoires en Python

Tableau croisé

Destination  Banglore  Cochin  Delhi  Hyderabad  Kolkata  New Delhi
Source                                                             
Banglore            0       0   1199          0        0        868
Chennai             0       0      0          0      364          0
Delhi               0    4318      0          0        0          0
Kolkata          2720       0      0          0        0          0
Mumbai              0       0      0        662        0          0
Analyse de données exploratoires en Python

Extension du tableau croisé

Source Destination Median Price (IDR)
Banglore Delhi 4232.21
Banglore New Delhi 12114.56
Chennai Kolkata 3859.76
Delhi Cochin 9987.63
Kolkata Banglore 9654.21
Mumbai Hyderabad 3431.97
Analyse de données exploratoires en Python

Valeurs agrégées avec pd.crosstab()

pd.crosstab(planes["Source"], planes["Destination"],

values=planes["Price"], aggfunc="median")
Destination  Banglore   Cochin   Delhi  Hyderabad  Kolkata  New Delhi
Source                                                               
Banglore          NaN      NaN  4823.0        NaN      NaN    10976.5
Chennai           NaN      NaN     NaN        NaN   3850.0        NaN
Delhi             NaN  10262.0     NaN        NaN      NaN        NaN
Kolkata        9345.0      NaN     NaN        NaN      NaN        NaN
Mumbai            NaN      NaN     NaN     3342.0      NaN        NaN
Analyse de données exploratoires en Python

Comparaison entre un échantillon et une population

Source Destination Median Price (IDR) Median Price (dataset)
Banglore Delhi 4232.21 4823.0
Banglore New Delhi 12114.56 10976.50
Chennai Kolkata 3859.76 3850.0
Delhi Cochin 9987.63 10260.0
Kolkata Banglore 9654.21 9345.0
Mumbai Hyderabad 3431.97 3342.0
Analyse de données exploratoires en Python

Passons à la pratique !

Analyse de données exploratoires en Python

Preparing Video For Download...