Préparation des données

Comprendre la science des données

Hadrien Lacroix

Content Developer, DataCamp

Flux de données

data science workflow

Comprendre la science des données

Pourquoi préparer les données ?

  • Les données réelles sont complexes
  • La préparation est effectuée afin d’éviter :
    • erreurs
    • résultats incorrects
    • algorithmes de biais

preparing soup

Comprendre la science des données

Commençons le nettoyage

Sara Lis Hadrien Lis
Âge 27 30 30
Taille 1,77 1,52 1,80 1,52
Pays Belgique États-unis France États-unis

scraper-cleaning-window

Comprendre la science des données

Données ordonnées

Avant

$$

Sara Lis Hadrien Lis
Âge 27 30 30
Taille 1,77 1,52 1,80 1,52
Pays Belgique États-unis France États-unis

folded-laundry

Comprendre la science des données

Résultat de données organisé

Avant

$$

Sara Lis Hadrien Lis
Âge 27 30 30
Taille 1,77 1,52 1,80 1,52
Pays Belgique États-unis France États-unis

Après

$$

Nom Âge Taille Pays
Sara 26 1,78 Belgique
Lis 30 1,52 États-unis
Hadrien 1,80 France
Lis 30 1,52 États-unis
Comprendre la science des données

Supprimer les doublons

Avant

$$

Nom Âge Taille Pays
Sara 27 1,77 Belgique
Lis 30 1,52 États-unis
Hadrien 1,80 France
Lis 30 1,52 États-unis

double-cherry

Comprendre la science des données

Supprimer les doublons dans le résultat |

Avant

$$

Nom Âge Taille Pays
Sara 27 1,77 Belgique
Lis 30 1,52 États-unis
Hadrien 1,80 France
Lis 30 1,52 États-unis

Après

$$

Nom Âge Taille Pays
Sara 27 1,77 Belgique
Lis 30 1,52 États-unis
Hadrien 1,80 France
Comprendre la science des données

Identifiant unique

Avant

$$

Nom Âge Taille Pays
Sara 27 1,77 Belgique
Lis 30 1,52 États-unis
Hadrien 1,80 France

purple-duck-with-yellow-ducks

Comprendre la science des données

Résultat d'identifiant unique |

Avant

$$

Nom Âge Taille Pays
Sara 27 1,77 Belgique
Lis 30 1,52 États-unis
Hadrien 1,80 France

Après

$$

Identifiant Nom Âge Taille Pays
0 Sara 27 1,77 Belgique
1 Lis 30 1,52 États-unis
2 Hadrien 1,80 France
Comprendre la science des données

Homogénéité

Avant

$$

Identifiant Nom Âge Taille Pays
0 Sara 27 1,77 Belgique
1 Lis 30 1,52 États-unis
2 Hadrien 1,80 France

small-goldfish-facing-large-goldfish

Comprendre la science des données

Homogénéité du résultat |

Avant

$$

Identifiant Nom Âge Taille Pays
0 Sara 27 1,77 Belgique
1 Lis 30 1,52 États-unis
2 Hadrien 1,80 France

Après

$$

Identifiant Nom Âge Taille Pays
0 Sara 27 1,77 Belgique
1 Lis 30 1,70 États-unis
2 Hadrien 1,80 France
Comprendre la science des données

Homogénéité, encore

Avant

$$

Identifiant Nom Âge Taille Pays
0 Sara 27 1,77 Belgique
1 Lis 30 1,70 États-unis
2 Hadrien 1,80 France

belgian-flag

Comprendre la science des données

Homogénéité, encore, du résultat |

Avant

$$

Identifiant Nom Âge Taille Pays
0 Sara 27 1,77 Belgique
1 Lis 30 1,70 États-unis
2 Hadrien 1,80 France

Après

$$

Identifiant Nom Âge Taille Pays
0 Sara 27 1,77 BE
1 Lis 30 1,70 États-unis
2 Hadrien 1,80 France
Comprendre la science des données

Types de données

Avant

$$

Identifiant Nom Âge Taille Pays
0 Sara 27 1,77 BE
1 Lis 30 1,70 États-unis
2 Hadrien 1,80 France

different-types-of-pasta

Comprendre la science des données

Résultat des types de données |

Avant

$$

Identifiant Nom Âge Taille Pays
0 Sara 27 1,77 BE
1 Lis 30 1,70 États-unis
2 Hadrien 1,80 France

Après

$$

Identifiant Nom Âge Taille Pays
0 Sara 27 1,77 BE
1 Lis 30 1,70 États-unis
2 Hadrien 1,80 France
Comprendre la science des données

Valeurs manquantes

Avant

$$

Identifiant Nom Âge Taille Pays
0 Sara 27 1,77 BE
1 Lis 30 1,70 États-unis
2 Hadrien 1,80 France

Motifs :

  • saisie des données
  • erreur
  • valeur manquante valide

Solutions :

  • imputer
  • couper
  • garder
Comprendre la science des données

Valeurs manquantes dans le résultat |

Avant

$$

Identifiant Nom Âge Taille Pays
0 Sara 27 1,77 BE
1 Lis 30 1,70 États-unis
2 Hadrien 1,80 France

Après

$$

Identifiant Nom Âge Taille Pays
0 Sara 27 1,77 BE
1 Lis 30 1,70 États-unis
2 Hadrien 28 1,80 France
Comprendre la science des données

Passons à la pratique !

Comprendre la science des données

Preparing Video For Download...