Termes et concepts de qualité des données

Introduction à la qualité des données

Chrissy Bloom

Head of Enterprise Data Strategy & Governance

Définir la qualité des données

  • Qualité des données : mesure du degré d’adéquation des données à l’usage
  • Bonne qualité des données = confiance dans les données
    • Meilleures décisions métier
    • Processus métier mieux outillés
  • La bonne qualité des données est souvent supposée
  • Il faut mesurer et suivre la qualité pour garantir l’adéquation à l’usage.

tableau de données

Introduction à la qualité des données

Définir les dimensions de qualité des données

Dimension de qualité des données : mesure d’un attribut spécifique de la qualité des données

  • Utiliser les dimensions de qualité pour quantifier l’adéquation à l’usage.
    • Complétude
    • Validité
    • Unicité
    • Cohérence
    • Actualité
    • Exactitude

cube

Introduction à la qualité des données

Complétude comme dimension de qualité des données

grille carrée

Complétude :

  • Niveau jeu de données : mesure le degré auquel tous les enregistrements attendus sont présents.
  • Niveau élément de donnée : mesure le degré auquel chaque enregistrement a une valeur quand attendu.
  • Problèmes métier dus aux données incomplètes :
    • Chiffres biaisés
    • Impact sur les clients
Introduction à la qualité des données

Exemple de complétude

tableau de données

Tous les enregistrements doivent avoir une valeur dans le champ CustomerName.

Introduction à la qualité des données

Validité comme dimension de qualité des données

Validité : mesure le degré auquel les valeurs d’un élément de donnée sont valides

  • Nécessite un contexte métier
  • Définir une liste ou des critères de valeurs valides
  • Mesure numérique de validité = nombre de valides / total

grille carrée

Introduction à la qualité des données

Exemple de validité

tableau de données

  • CustomerBirthDate doit être une date passée.
  • CustomerAccountType doit être Loan ou Deposit.
  • LatestAccountOpenDate doit être une date passée.
Introduction à la qualité des données

Unicité comme dimension de qualité des données

carré rayé

Unicité : mesure dans quelle mesure les enregistrements d’un jeu de données ne sont pas dupliqués

  • Nécessite un contexte métier pour définir les critères d’unicité
  • Chercher des doublons sur une ou plusieurs colonnes pour identifier les erreurs
Introduction à la qualité des données

Exemple d’unicité

tableau de données

Chaque enregistrement doit avoir un CustomerID et un CustomerName uniques.

Introduction à la qualité des données

Passons à la pratique !

Introduction à la qualité des données

Preparing Video For Download...