Anomalieerkennung

Einführung in die Datenqualität

Chrissy Bloom

Head of Enterprise Data Strategy & Governance

Definition der Anomalieerkennung

Anomalieerkennung: Wenn ein Machine-Learning-Algorithmus verwendet wird, um anhand historischer Daten etwas über einen Datensatz zu lernen und potenzielle Probleme mit der Datenqualität zu erkennen

Lupe mit einer Uhr, die die Überwachung im Zeitverlauf anzeigt, und einem Pfeil, der auf eine Tabelle mit einer möglichen Anomalie verweist

Einführung in die Datenqualität

Vorteile der Anomalieerkennung

Vorteile:

  • Daten werden in großem Umfang überwacht und nicht etwa nur kritische Datenelemente
  • Die Einrichtung erfordert wenig betriebswirtschaftliches Wissen, da der Machine Learning Algorithmus lernt, Fehler zu erkennen
  • Kann Datenabweichungen und nicht offensichtliche Datenerkenntnisse erkennen

Diagramm mit mehreren verschiedenen Datenquellen, das Datenqualität in großem Maßstab symbolisiert

Einführung in die Datenqualität

Anomalieerkennung nutzen

  1. Verfügbarkeit großer Datenmenge
  2. Überwachung großer Datenmengen hinsichtlich Datenqualität erforderlich
    • Minimaler manueller Aufwand erforderlich
    • Überwachung im großen Maßstab
    • Automatisieren der Erkennung von Datenanomalien

Drei Textzeilen über den Einsatz von überwachenden Regeln, präventiven Regeln und Anomalieerkennung

Einführung in die Datenqualität

Beispiel für die Anomalieerkennung

Zwei Tabellen mit Daten, bei denen in der letzten Zeile eine potenzielle Anomalie festgestellt wurde

Einführung in die Datenqualität

Lass uns üben!

Einführung in die Datenqualität

Preparing Video For Download...