Termes et concepts relatifs à la qualité des données

Introduction à la qualité des données

Chrissy Bloom

Head of Enterprise Data Strategy & Governance

Définir la qualité des données

  • Qualité des données : mesure le degré d’adéquation des données à leur objectif
  • Bonne qualité des données = confiance dans les données
    • Meilleures décisions commerciales
    • Processus d’entreprise mieux équipés
  • On part souvent du principe que les données sont de bonne qualité
  • La qualité des données doit être mesurée et contrôlée afin de s’assurer que les données sont utilisables.

table de données

Introduction à la qualité des données

Définir les dimensions de la qualité des données

Dimension de la qualité des données : mesure d’un attribut spécifique de la qualité des données

  • Utilisez les dimensions de la qualité des données pour quantifier l’adéquation des données à leur objectif.
    • Exhaustivité
    • Validité
    • Unicité
    • Cohérence
    • Actualité
    • Exactitude

cube

Introduction à la qualité des données

L’intégrité comme dimension de qualité

grille carrée

Exhaustivité :

  • Au niveau de l’ensemble de données : mesure le degré de disponibilité de tous les enregistrements attendus dans un ensemble de données.
  • Au niveau des éléments de données : mesure le degré de disponibilité des données attendues dans tous les enregistrements.
  • Problèmes commerciaux dus à des données incomplètes :
    • Les chiffres peuvent être faussés
    • Les clients peuvent être affectés
Introduction à la qualité des données

Exemple d’exhaustivité

table de données

Tous les enregistrements doivent comporter une valeur dans le champ CustomerName.

Introduction à la qualité des données

La validité comme dimension de la qualité

Validité : mesure le degré de validité des valeurs d’un élément de données

  • Requiert le contexte d’entreprise
  • Définissez une liste ou des critères pour les valeurs valides
  • Mesure numérique de la validité = nombre valides/nombre total

grille carrée

Introduction à la qualité des données

Exemple de validité

table de données

  • La valeur de CustomerBirthDate doit être une date future.
  • La valeur de CustomerAccountType doit être soit Loan ou Deposit.
  • La valeur de LatestAccountOpenDate doit être une date passée.
Introduction à la qualité des données

L’unicité comme dimension de la qualité

carré rayé

Unicité : mesure le degré auquel les enregistrements d’un ensemble de données ne sont pas dupliqués

  • Requiert le contexte d’entreprise pour définir les critères permettant de déterminer les enregistrements uniques
  • Il peut être nécessaire de rechercher des doublons dans une ou plusieurs colonnes pour identifier les erreurs
Introduction à la qualité des données

Exemple d’unicité

table de données

Tous les enregistrements doivent avoir un CustomerID et un CustomerName uniques.

Introduction à la qualité des données

Passons à la pratique !

Introduction à la qualité des données

Preparing Video For Download...