Qu’est-ce que l’analyse exploratoire des données ?

Analyse exploratoire des données dans Power BI

Jacob H. Marquez

Data Scientist at Microsoft

Qu’est-ce que l’analyse exploratoire des données ?

« Une approche d’analyse des jeux de données visant à en résumer les principales caractéristiques, souvent à l’aide de graphiques statistiques et d’autres méthodes de visualisation. »

1 https://en.wikipedia.org/wiki/Exploratory_data_analysis
Analyse exploratoire des données dans Power BI

Six étapes pour l’AED

  1. Comprendre la structure des données

  2. Identifier les données manquantes

  3. Décrire les données avec statistiques descriptives et distributions

  4. Identifier les valeurs aberrantes

  5. Examiner et quantifier les relations entre variables

  6. Formuler des hypothèses

Analyse exploratoire des données dans Power BI

Six étapes pour l’AED

  1. Comprendre la structure des données

  2. Identifier les données manquantes

  3. Décrire les données avec statistiques descriptives et distributions

  4. Identifier les valeurs aberrantes

  5. Examiner et quantifier les relations entre variables

  6. Formuler des hypothèses

Analyse exploratoire des données dans Power BI

1. Comprendre la structure des données

Continue

Variables numériques pouvant souvent prendre une infinité de valeurs

  • Nombre d’étoiles dans l’espace
  • Taux de clics
  • Distance entre deux villes

Catégorielle

Variables non numériques, généralement du texte, avec deux groupes ou plus

  • Types de logements
  • Pays
  • Entreprise
Analyse exploratoire des données dans Power BI

2. Identifier les données manquantes

 

Données manquantes aléatoires

Une matrice 9×4 avec des ensembles de trois lignes groupées pour trois villes : Seattle, New York et Paris. Les cellules indiquent des pouces de pluie dans 30 cases et 6 sont vides de façon aléatoire dans les trois groupes.

 

Données manquantes non aléatoires

Une matrice 9×4 avec des ensembles de trois lignes groupées pour trois villes : Seattle, New York et Paris. Les cellules indiquent des pouces de pluie dans 30 cases et 4 sont vides aléatoirement uniquement pour Seattle.

Analyse exploratoire des données dans Power BI

2. Traiter les données manquantes

 

Une matrice 9×4 avec des ensembles de trois lignes groupées pour trois villes : Seattle, New York et Paris. Les cellules indiquent des pouces de pluie dans 30 cases et 4 sont vides aléatoirement uniquement pour Seattle.

La même matrice 9×4 mais avec la première ligne retirée, pour représenter la suppression des cellules vides.

La même matrice 9×4 mais avec la première ligne maintenant remplie, pour représenter l’imputation des cellules vides par la médiane.

Analyse exploratoire des données dans Power BI

3. Décrire les données

  • Minimum
  • Maximum
  • Moyenne : somme des valeurs divisée par le nombre d’observations
  • Médiane : valeur au centre d’un ensemble de valeurs
  • Écart-type : écart moyen à la moyenne observé sur tous les points
Analyse exploratoire des données dans Power BI

3. Décrire les données avec des distributions

Un histogramme des tailles de personnes, avec les valeurs de taille en abscisse et le nombre d’observations en ordonnée.

  • Médiane et moyenne égales
  • Courbe symétrique
Analyse exploratoire des données dans Power BI

3. Décrire les données avec des distributions

Un histogramme des revenus des ménages, avec les valeurs de revenu en abscisse et le nombre d’observations en ordonnée. L’histogramme est large à gauche et se rétrécit vers la droite.

  • Médiane < Moyenne
  • « Asymétrie à droite » : la queue est à droite

Un histogramme du temps passé en ligne, avec le temps en abscisse et le nombre d’observations en ordonnée. L’histogramme est étroit à gauche et s’élargit vers la droite.

  • Médiane > Moyenne
  • « Asymétrie à gauche » : la queue est à gauche
Analyse exploratoire des données dans Power BI

Jeu de données : annonces Airbnb

Image du jeu de données Airbnb avec cinq colonnes : listing_id, host_id, host_since (colonne de date), city et price.

Analyse exploratoire des données dans Power BI

Passons à la pratique !

Analyse exploratoire des données dans Power BI

Preparing Video For Download...