Datakwaliteit en -inname

MLOps-concepten

Folkert Stijnman

ML Engineer

Datakwaliteit en -inname

Levenscyclus machine learning: data-acquisitie

MLOps-concepten

Wat is datakwaliteit?

  • Datakwaliteit meet hoe goed data het doel dient
  • Beoordeeld via verschillende dimensies
  • ML-modelkwaliteit hangt af van data
MLOps-concepten

Dimensies van datakwaliteit

  • Nauwkeurigheid
  • Volledigheid
  • Consistentie
  • Tijdigheid
MLOps-concepten

Voorbeeld: dimensies van datakwaliteit

Dimensie Voorbeeldvraag Voorbeeld van dimensiekwaliteit
Nauwkeurigheid Beschrijft onze data de klant correct? De leeftijd in de data is 18, maar is eigenlijk 32.
Volledigheid Mist er klantdata? Voor 80% van de klanten ontbreekt een achternaam.
Consistentie Is de klantdefinitie overal in het bedrijf gelijk? De klant staat in de ene database als actief en in een andere als niet actief.
Tijdigheid Wanneer is besteldata van klanten beschikbaar? Bestellingen worden aan het eind van de dag gesynchroniseerd en zijn niet real-time beschikbaar.

Lage datakwaliteit is niet het einde van het project!

MLOps-concepten

Data-inname

Datapijplijn

MLOps-concepten

Laten we oefenen!

MLOps-concepten

Preparing Video For Download...