Begrippen en concepten rond datakwaliteit

Inleiding tot datakwaliteit

Chrissy Bloom

Head of Enterprise Data Strategy & Governance

Datakwaliteit definiëren

  • Datakwaliteit: een maat voor hoe geschikt data is voor het doel
  • Goede datakwaliteit = vertrouwen in data
    • Betere zakelijke beslissingen
    • Beter ingerichte processen
  • Goede datakwaliteit wordt vaak verondersteld
  • Meet en monitor datakwaliteit om bruikbaarheid te borgen.

datatabel

Inleiding tot datakwaliteit

Datakwaliteitsdimensies definiëren

Datakwaliteitsdimensie: een maat voor een specifiek kenmerk van de kwaliteit van data

  • Gebruik datakwaliteitsdimensies om te kwantificeren hoe geschikt data is.
    • Volledigheid
    • Geldigheid
    • Uniciteit
    • Consistentie
    • Tijdigheid
    • Nauwkeurigheid

kubus

Inleiding tot datakwaliteit

Volledigheid als datakwaliteitsdimensie

vierkant raster

Volledigheid:

  • Datasetniveau: meet in hoeverre alle verwachte records aanwezig zijn.
  • Data-elementniveau: meet in hoeverre alle records data hebben waar verwacht.
  • Zakelijke issues door onvolledige data:
    • Cijfers kunnen scheef zijn
    • Klanten kunnen geraakt worden
Inleiding tot datakwaliteit

Voorbeeld van volledigheid

datatabel

Alle records moeten een waarde hebben in het veld CustomerName.

Inleiding tot datakwaliteit

Geldigheid als datakwaliteitsdimensie

Geldigheid: meet in hoeverre de waarden in een data-element geldig zijn

  • Vereist bedrijfscontext
  • Definieer lijst of criteria voor geldige waarden
  • Numerieke meting van geldigheid = aantal geldig/totaal aantal

vierkant raster

Inleiding tot datakwaliteit

Voorbeeld van geldigheid

datatabel

  • CustomerBirthDate moet een datum in het verleden zijn.
  • CustomerAccountType moet Loan of Deposit zijn.
  • LatestAccountOpenDate moet een datum in het verleden zijn.
Inleiding tot datakwaliteit

Uniciteit als datakwaliteitsdimensie

gestreept vierkant

Uniciteit: meet in hoeverre records in een dataset niet dubbel zijn

  • Vereist bedrijfscontext om criteria voor unieke records te bepalen
  • Mogelijk zoeken naar dubbelen in één of meer kolommen om fouten te vinden
Inleiding tot datakwaliteit

Voorbeeld van uniciteit

datatabel

Alle records moeten een unieke CustomerID en CustomerName hebben.

Inleiding tot datakwaliteit

Laten we oefenen!

Inleiding tot datakwaliteit

Preparing Video For Download...