Begriffe und Konzepte der Datenqualität

Einführung in die Datenqualität

Chrissy Bloom

Head of Enterprise Data Strategy & Governance

Datenqualität definieren

  • Datenqualität: Maß dafür, wie gut Daten zweckgeeignet sind
  • Gute Datenqualität = Vertrauen in Daten
    • Bessere Geschäftsentscheidungen
    • Besser aufgestellte Geschäftsprozesse
  • Gute Datenqualität wird oft vorausgesetzt
  • Datenqualität muss gemessen und überwacht werden, um Eignung sicherzustellen.

Datentabelle

Einführung in die Datenqualität

Datenqualitätsdimensionen definieren

Dimension der Datenqualität: Messung eines bestimmten Attributs der Datenqualität

  • Nutze Datenqualitätsdimensionen, um die Zweckgeeignetheit von Daten zu quantifizieren.
    • Vollständigkeit
    • Gültigkeit
    • Eindeutigkeit
    • Konsistenz
    • Aktualität
    • Genauigkeit

Würfel

Einführung in die Datenqualität

Vollständigkeit als Dimension der Datenqualität

quadratisches Raster

Vollständigkeit:

  • Auf Dataset-Ebene: misst, ob alle erwarteten Datensätze vorhanden sind.
  • Auf Feldebene: misst, ob alle Datensätze wie erwartet befüllt sind.
  • Geschäftsprobleme durch unvollständige Daten:
    • Zahlen können verzerrt sein
    • Kund:innen können betroffen sein
Einführung in die Datenqualität

Beispiel: Vollständigkeit

Datentabelle

Alle Datensätze müssen im Feld CustomerName einen Wert haben.

Einführung in die Datenqualität

Gültigkeit als Dimension der Datenqualität

Gültigkeit: misst, wie gültig die Werte eines Datenelements sind

  • Benötigt Geschäftskontext
  • Liste oder Kriterien für gültige Werte festlegen
  • Numerisches Maß = Anzahl gültig/Gesamtanzahl

quadratisches Raster

Einführung in die Datenqualität

Beispiel: Gültigkeit

Datentabelle

  • CustomerBirthDate muss ein Datum in der Vergangenheit sein.
  • CustomerAccountType muss entweder Loan oder Deposit sein.
  • LatestAccountOpenDate muss ein Datum in der Vergangenheit sein.
Einführung in die Datenqualität

Eindeutigkeit als Dimension der Datenqualität

gestreiftes Quadrat

Eindeutigkeit: misst, wie frei ein Datensatz von Duplikaten ist

  • Geschäftskontext nötig, um Kriterien für eindeutige Datensätze zu definieren
  • Duplikate ggf. in einer oder mehreren Spalten prüfen
Einführung in die Datenqualität

Beispiel: Eindeutigkeit

Datentabelle

Alle Datensätze müssen eine eindeutige CustomerID und CustomerName haben.

Einführung in die Datenqualität

Lass uns üben!

Einführung in die Datenqualität

Preparing Video For Download...