Hoe covariaatshift detecteren

Monitoring Machine Learning-concepten

Hakim Elakhrass

Co-founder and CEO of NannyML

Multivariate driftdetectie

  • Zoekt naar veranderingen in de gezamenlijke verdeling

 

 

  • Gebruikt het PCA-algoritme voor compressie

 

 

  • Gebruikt reconstructiefout als driftmaat

De afbeelding toont een workflow voor multivariate driftdetectie: data wordt gecomprimeerd naar de latente ruimte en daarna met reconstructiefout teruggezet.

De grafiek toont fluctuaties in reconstructiedriftfout in de tijd.

Monitoring Machine Learning-concepten

Univariate driftdetectie

Type variabelen:

  • Categorisch: data in groepen, zoals burgerlijke staat, rookstatus, opleidingsniveau

 

  • Continu: oneindig veel reële waarden binnen een interval, zoals lengte, gewicht, afstand, tijd
Monitoring Machine Learning-concepten

Continue methoden - Jensen–Shannon

  • Meet de gelijkenis van twee verdelingen

  • Bereik [0, 1]

  • Signaleert betekenisvolle drifts met lage amplitude

De afbeelding toont een distributieverandering gemeten met de Jensen–Shannon-afstand.

Monitoring Machine Learning-concepten

Continue methoden - Wasserstein

  • Minimale inspanning om één verdeling in een andere te transformeren

  • Bereik [0, +inf]

  • Gevoelig voor uitschieters

De afbeelding toont een distributieverandering gemeten met de Wasserstein-afstand.

Monitoring Machine Learning-concepten

Continue methoden - Kolmogorov–Smirnov

  • Maximale afstand tussen cumulatieve verdelingen

  • Bereik [0, 1]

  • Gevoelig voor vals-positieven

De afbeelding toont een distributieverandering gemeten met de Kolmogorov–Smirnov-afstand.

Monitoring Machine Learning-concepten

Continue methoden - Hellinger

  • Overlap tussen verdelingen
  • Bereik [0, 1]
  • Onderscheidt sterke shifts minder goed

 

Continue methoden - Aanbeveling

  • Jensen–Shannon en Wasserstein presteren vaak goed

De afbeelding toont een distributieverandering gemeten met de Hellinger-afstand.

Monitoring Machine Learning-concepten

Categorische methoden - Chi-kwadraat

  • Gevoelig voor veranderingen in laagfrequente categorieën

De afbeelding toont een visualisatie van de chi-kwadraatstatistiek voor een categorische variabele met twee categorieën, a en b.

Monitoring Machine Learning-concepten

Categorische methoden - L-infinity

  • Vindt de grootste shift over alle categorieën

De afbeelding toont een visualisatie van de L-infinity-methode voor een categorische variabele met drie categorieën, a, b en c.

Monitoring Machine Learning-concepten

Categorische methoden - Jensen–Shannon en Hellinger

  • Jensen–Shannon of L-infinity bij veel categorieën
  • L-infinity-afstand voor veranderingen in individuele categorieën

De afbeelding toont een visualisatie van de Jensen–Shannon- en Hellinger-methoden voor een categorische variabele met drie categorieën, a, b en c.

Monitoring Machine Learning-concepten

Laten we oefenen!

Monitoring Machine Learning-concepten

Preparing Video For Download...