Anomaliedetectie

Inleiding tot datakwaliteit

Chrissy Bloom

Head of Enterprise Data Strategy & Governance

Anomaliedetectie definiëren

Anomaliedetectie: wanneer een machinelearning-algoritme leert van historische data en mogelijke datakwaliteitsproblemen identificeert

vergrootglas met een klok (monitoring in de tijd) en een pijl naar een tabel met een mogelijke anomalie

Inleiding tot datakwaliteit

Voordelen van anomaliedetectie

Voordelen:

  • Monitor data op schaal i.p.v. alleen kritieke elementen
  • Weinig domeinkennis nodig; het algoritme leert hoe fouten eruitzien
  • Detecteert datadrift en minder voor de hand liggende inzichten

diagram met verschillende databronnen dat datakwaliteit op schaal symboliseert

Inleiding tot datakwaliteit

Anomaliedetectie gebruiken

  1. Als er veel data beschikbaar is
  2. Als veel data datakwaliteitsmonitoring vereist
    • minimale handmatige inzet nodig
    • monitoring op schaal opzetten
    • detectie van data-anomalieën automatiseren

drie tekstregels over het gebruik van detectief, preventief en anomaliedetectie

Inleiding tot datakwaliteit

Voorbeeld van anomaliedetectie

twee tabellen met data waarbij in de laatste rij een mogelijke anomalie is gedetecteerd

Inleiding tot datakwaliteit

Laten we oefenen!

Inleiding tot datakwaliteit

Preparing Video For Download...