Monitoring en alerting

MLOps-deployments en levenscyclus

Nemanja Radojkovic

Senior Machine Learning Engineer

buitenwereld

MLOps-deployments en levenscyclus

bugs in de service

MLOps-deployments en levenscyclus

bugs vangen

MLOps-deployments en levenscyclus

veel bewegende delen

MLOps-deployments en levenscyclus

storingspunten 2

MLOps-deployments en levenscyclus

waarschuwing

MLOps-deployments en levenscyclus

kijk hier

MLOps-deployments en levenscyclus

loggen 1

MLOps-deployments en levenscyclus

loggen 2

MLOps-deployments en levenscyclus

loggen 3

MLOps-deployments en levenscyclus

data-pijplijn 1

MLOps-deployments en levenscyclus

datavalidatie 2

MLOps-deployments en levenscyclus

dataprofielen validatie

MLOps-deployments en levenscyclus

Statistische validatie

Kan zijn:

  • te gevoelig
  • niet informatief genoeg

 

Risico

  • Te veel alerts
  • "Alert-moeheid"
  • Belangrijke alerts gemist
MLOps-deployments en levenscyclus

iedereen informeren

MLOps-deployments en levenscyclus

Leer van je historie

Na het incident: leg hoofdoorzaak en stappen vast

Voorbeeld van Google[1]:

  • 10 jaar aan incidenten vastgelegd en geanalyseerd
  • > 2/3 was niet ML-gerelateerd!
1 How ML Breaks: A Decade of Outages for One Large ML Pipeline, https://www.usenix.org/conference/opml20/presentation/papasian
MLOps-deployments en levenscyclus

gecentraliseerde monitoring

MLOps-deployments en levenscyclus

Laten we oefenen!

MLOps-deployments en levenscyclus

Preparing Video For Download...