Datenqualität: Begriffe und Konzepte

Einführung in die Datenqualität

Chrissy Bloom

Head of Enterprise Data Strategy & Governance

Definition von Datenqualität

  • Datenqualität: ist ein Maß dafür, inwieweit die Daten für ihren Zweck geeignet sind
  • Gute Datenqualität = Vertrauen in Daten
    • Bessere Geschäftsentscheidungen
    • Besser ausgestattete Geschäftsprozesse
  • Oft wird eine gute Datenqualität vorausgesetzt
  • Die Datenqualität muss gemessen und überwacht werden, um sicherzustellen, dass die Daten brauchbar sind.

Datentabelle

Einführung in die Datenqualität

Datenqualitätsdimensionen definieren

Datenqualitätsdimension: ein Maß für ein bestimmtes Attribut der Datenqualität

  • Mit Datenqualitätsdimensionen quantifiziert man die Zweckmäßigkeit der Daten.
    • Vollständigkeit
    • Gültigkeit
    • Eindeutigkeit
    • Einheitlichkeit
    • Aktualität
    • Genauigkeit

Würfel

Einführung in die Datenqualität

Vollständigkeit als eine Dimension der Datenqualität

quadratisches Raster

Vollständigkeit:

  • Datensatzebene: Misst den Grad, in dem alle erwarteten Datensätze in einem Datensatz vorhanden sind.
  • Datenelementebene: Misst, inwieweit alle Einträge wie erwartet mit Daten ausgefüllt sind.
  • Geschäftsprobleme aufgrund unvollständiger Daten:
    • Zahlen können verzerrt sein
    • Kunden können betroffen sein
Einführung in die Datenqualität

Beispiel für Vollständigkeit

Datentabelle

Alle Datensätze müssen einen Wert für das Feld CustomerName enthalten.

Einführung in die Datenqualität

Gültigkeit als eine Dimension der Datenqualität

Gültigkeit: misst, inwieweit die Werte in einem Datenelement gültig sind

  • Erfordert geschäftlichen Kontext
  • Definiere eine Liste oder Kriterien für gültige Werte
  • Numerische Messung der Gültigkeit = Anzahl der gültigen Werte/Gesamtzahl

quadratisches Raster

Einführung in die Datenqualität

Beispiel für Gültigkeit

Datentabelle

  • Der Wert CustomerBirthDate muss ein in der Zukunft liegendes Datum sein.
  • Der Wert CustomerAccountType muss entweder „Loan“ oder „Deposit“ sein.
  • Der Wert LatestAccountOpenDate muss ein Datum in der Vergangenheit sein.
Einführung in die Datenqualität

Eindeutigkeit als eine Dimension der Datenqualität

gestreiftes Quadrat

Eindeutigkeit: misst, ob Einträge in einem Datensatz doppelt vorhanden sind

  • Erfordert geschäftlichen Kontext, um Kriterien für die Bestimmung eindeutiger Datensätze zu definieren
  • Eventuell muss nach Duplikaten in einer oder mehreren Spalten gesucht werden, um Fehler zu erkennen
Einführung in die Datenqualität

Beispiel für Eindeutigkeit

Datentabelle

Alle Datensätze müssen eindeutige Werte für CustomerID und CustomerName aufweisen.

Einführung in die Datenqualität

Lass uns üben!

Einführung in die Datenqualität

Preparing Video For Download...