Dataprofielen

Inleiding tot datakwaliteit

Chrissy Bloom

Head of Enterprise Data Strategy & Governance

Wat is dataprofiling?

Dataprofiling: statistieken draaien op een dataset om de data en veldafhankelijkheden beter te begrijpen

Voorbeelden:

  • Hoeveel records staan er in de dataset?
  • Wat zijn de min- en maxwaarden voor een bepaald gegevenselement?
  • Hoeveel records hebben een bepaald element gevuld?
  • Als kolom A is gevuld, welke andere kolommen ook?

dataprofielvoorbeelden, min, max, aantal nulls

Inleiding tot datakwaliteit

Belang van dataprofiling

Dataprofiling:

  • Bevestigt wat je al weet
  • Onthult wat je niet weet
  • Vindt datakwaliteitsproblemen
  • Helpt betere datakwaliteitsregels te schrijven

datatabel met een zaklamp erop

Inleiding tot datakwaliteit

Hoe ziet een dataprofiel eruit?

![datatabel]

Inleiding tot datakwaliteit

Dataprofiel Klant-ID

voorbeelden van dataprofielen

Inleiding tot datakwaliteit

Dataprofiel Klantnaam

voorbeelden van dataprofielen

Inleiding tot datakwaliteit

Dataprofiel Geboortedata klant

voorbeelden van dataprofielen

Inleiding tot datakwaliteit

Dataprofiel Rekeningtype klant

voorbeelden van dataprofielen

Inleiding tot datakwaliteit

Een dataprofiel gebruiken voor datakwaliteit

voorbeelden van dataprofielen

  • Alle CustomerID-waarden zijn 11 numerieke tekens.
  • Alle CustomerFirstName-waarden zijn een tekststring van 1–20 tekens.
  • Alle CustomerLastName-waarden zijn een tekststring van 1–30 tekens.

voorbeelden van dataprofielen

  • Alle CustomerBirthDate-waarden staan in MM/DD/YYYY en liggen tussen 01/01/1900 en 99/99/9999.
  • Alle CustomerAccountType-waarden zijn Loan, Deposit, Loan and Deposit of Credit Card.
Inleiding tot datakwaliteit

Laten we oefenen!

Inleiding tot datakwaliteit

Preparing Video For Download...