Anomalieerkennung

Einführung in die Datenqualität

Chrissy Bloom

Head of Enterprise Data Strategy & Governance

Definition der Anomalieerkennung

Anomalieerkennung: Wenn ein Machine-Learning-Algorithmus verwendet wird, um anhand historischer Daten etwas über einen Datensatz zu lernen und potenzielle Probleme mit der Datenqualität zu erkennen

Lupe mit einer Uhr, die die Überwachung im Zeitverlauf anzeigt, und einem Pfeil, der auf eine Tabelle mit einer möglichen Anomalie verweist

Einführung in die Datenqualität

Vorteile der Anomalieerkennung

Vorteile:

  • Daten werden in großem Umfang überwacht und nicht nur kritische Datenelemente
  • Die Einrichtung erfordert wenig betriebswirtschaftliches Wissen, da der maschinelle Lernalgorithmus lernt, Fehler zu erkennen
  • Kann Datenabweichungen und nicht offensichtliche Datenerkenntnisse erkennen

Diagramm mit mehreren verschiedenen Datenquellen, das Datenqualität in großem Maßstab symbolisiert

Einführung in die Datenqualität

Anomalieerkennung nutzen

  1. Wenn eine große Menge an Daten verfügbar ist
  2. Wenn eine große Menge an Daten eine Überwachung der Datenqualität erfordert
    • Minimaler manueller Aufwand erforderlich
    • Überwachung im großen Maßstab einrichten
    • Das Erkennen von Datenanomalien automatisieren

Drei Textzeilen über den Einsatz von überwachenden Regeln, präventiven Regeln und Anomalieerkennung

Einführung in die Datenqualität

Beispiel für die Anomalieerkennung

Zwei Tabellen mit Daten, bei denen in der letzten Zeile eine potenzielle Anomalie festgestellt wurde

Einführung in die Datenqualität

Lass uns üben!

Einführung in die Datenqualität

Preparing Video For Download...