Datenqualität: Begriffe und Konzepte

Einführung in die Datenqualität

Chrissy Bloom

Head of Enterprise Data Strategy & Governance

Definition von Datenqualität

  • Datenqualität: ist ein Maß dafür, inwieweit die Daten für ihren Zweck geeignet sind
  • Gute Datenqualität = Vertrauen in Daten
    • Bessere Geschäftsentscheidungen
    • Besser funktionierende Geschäftsprozesse
  • Oft wird eine gute Datenqualität angenommen
  • Die Datenqualität muss gemessen und überwacht werden, um sicherzustellen, dass die Daten brauchbar sind

Datentabelle

Einführung in die Datenqualität

Datenqualitätsdimensionen definieren

Datenqualitätsdimension: ein Maß für ein bestimmtes Attribut der Datenqualität

  • Mit Datenqualitätsdimensionen quantifiziert man die Zweckmäßigkeit der Daten.
    • Vollständigkeit
    • Gültigkeit
    • Eindeutigkeit
    • Konsistenz (Widerspruchsfreiheit)
    • Aktualität
    • Genauigkeit

Würfel

Einführung in die Datenqualität

Vollständigkeit als eine Dimension der Datenqualität

quadratisches Raster

Vollständigkeit:

  • Datensatzebene: Misst den Grad, zu welchem alle erwarteten Datensätze in einem Datensatz vorhanden sind.
  • Datenelementebene: Misst, inwieweit alle Einträge wie erwartet mit Daten ausgefüllt sind.
  • Geschäftsprobleme aufgrund unvollständiger Daten:
    • Berechnungen können verzerrt sein
    • Kunden können betroffen sein
Einführung in die Datenqualität

Beispiel für Vollständigkeit

Datentabelle

Alle Datensätze müssen einen Wert für das Feld Kundenname enthalten.

Einführung in die Datenqualität

Gültigkeit als eine Dimension der Datenqualität

Gültigkeit: misst, inwieweit die Werte in einem Datenelement gültig sind

  • Erfordert geschäftlichen Kontext
  • Definition einer Liste oder Kriterien für gültige Werte
  • Numerische Messung der Gültigkeit = Anzahl der gültigen Werte / Gesamtzahl

quadratisches Raster

Einführung in die Datenqualität

Beispiel für Gültigkeit

Datentabelle

  • Der Wert Kundengeburtstag ist ein in der Zukunft liegendes Datum.
  • Der Wert für Kundenkontotyp muss entweder „Darlehen“ oder „Guthaben“ sein.
  • Der Wert für DatumKontoZuletztEröffnet muss ein Datum in der Vergangenheit sein.
Einführung in die Datenqualität

Eindeutigkeit als eine Dimension der Datenqualität

gestreiftes Quadrat

Eindeutigkeit: misst, ob Einträge in einem Datensatz doppelt vorkommen

  • Erfordert geschäftlichen Kontext, um Kriterien für die Bestimmung eindeutiger Datensätze zu definieren
  • Eventuell muss nach Duplikaten in einer oder mehreren Spalten gesucht werden, um Fehler zu erkennen
Einführung in die Datenqualität

Beispiel für Eindeutigkeit

Datentabelle

Alle Datensätze müssen eine eindeutige Kunden-ID und einen eindeutigen Kundennamen haben.

Einführung in die Datenqualität

Lass uns üben!

Einführung in die Datenqualität

Preparing Video For Download...