Nettoyage des données

Concepts liés aux entrepôts de données

Aaren Stubberfield

Data Scientist

Programme de la vidéo

  • Révision du format des données
  • Analyse d'adresse
  • Validation des données
  • De-duplication
Concepts liés aux entrepôts de données

Nettoyage du format des données

  • Mettre à jour les valeurs dans un format attendu
    • Dates
    • Noms des options
    • Capitalisation
  • Garantit que le résultat est dans un format cohérent

Exemple de données relatives aux taxis

Two tables combined into one

Concepts liés aux entrepôts de données

Analyse d'adresse

  • Diviser une adresse postale en ses différents éléments
  • Peut utiliser des outils pour valider les adresses
Adresse
1234 S Normal St, Cleveland, OH 44102
Adresse Ville État Code postal
1234 S Normal St Cleveland OH 44102
Concepts liés aux entrepôts de données

Validation des données

  • Contrôle de plage
    • La valeur se situe-t-elle dans la plage attendue ?
    • Exemple : L'âge d'une personne
  • Vérification du type
    • La valeur est-elle du type de données approprié ?
    • Exemple : Stockage de l'âge sous forme de chaîne ou de nombre

Table of Age with the first row listed as 300, which is flagged as not valid.

Table with three columns with Age as the first column, listed as a data type of string, which is flagged as not valid.

Concepts liés aux entrepôts de données

Suppression des lignes en double

  • Ce processus élimine les doublons

image of two tables with two columns to be appended together

the final appended table without the duplicate row

Concepts liés aux entrepôts de données

Gouvernance des données

Regulatory compliance illustration

Concepts liés aux entrepôts de données

Passons à la pratique !

Concepts liés aux entrepôts de données

Preparing Video For Download...