Wat is covariate shift?

Monitoring Machine Learning-concepten

Hakim Elakhrass

Co-founder and CEO of NannyML

Definities

  • covariaten = inputfeatures
  • P(X) verandert
  • voorwaardelijke kans P(Y|X) blijft gelijk
  • veranderingen in de gezamenlijke verdeling van covariaten
Monitoring Machine Learning-concepten

Waarom de gezamenlijke kansverdeling?

Een grafiek toont zowel positieve als negatieve correlaties tussen feature één en feature twee. Positief in week 10 (blauw) en negatief in week 16 (rood).

Monitoring Machine Learning-concepten

Waardoor ontstaat covariate shift?

Mogelijke oorzaken van covariate shift:

  • De echte wereld is niet stationair: patronen en trends veranderen
  • Wijzigingen in databronnen: verschillen in dataverzameling tussen test en productie
  • Evolutie van systeem en omgeving
Monitoring Machine Learning-concepten

Hoe ontstaat covariate shift?

Dynamiek van distributieveranderingen:

  • Plotseling

 

  • Geleidelijke

 

  • Seizoensgebonden

 

De afbeelding toont een plotselinge verandering in de dataverdeling: eerst blauwe punten, die op een moment abrupt naar rood omslaan.

De afbeelding toont een geleidelijke verandering: blauwe punten gaan stap voor stap over naar rood en later terug naar blauw. Aanvankelijk verandert één punt van kleur; na verloop van tijd is alles rood.

De afbeelding toont een seizoensgebonden verandering: blauwe punten slaan na enige tijd plots naar rood en keren daarna weer terug naar blauw. Deze cyclus herhaalt zich.

Monitoring Machine Learning-concepten

Hoe detecteer je covariate shift?

Univariate methode

Een distributie van productie­waarden per maand van september tot en met maart. Er zijn zeven distributies. Van september t/m december zijn ze vergelijkbaar met kleine, acceptabele veranderingen (blauw). Van januari t/m maart krimpen de distributies en verschuift het gemiddelde naar lagere waarden (rood) door grotere veranderingen.

Multivariate methode

Een multivariate drift-detectieworkflow: multidimensionale data wordt eerst gecomprimeerd naar de latente ruimte en daarna met een bepaalde fout terug gedecomprimeerd.

1 https://app.datacamp.com/learn/courses/dimensionality-reduction-in-python
Monitoring Machine Learning-concepten

Laten we oefenen!

Monitoring Machine Learning-concepten

Preparing Video For Download...