Come rilevare il covariate shift

Concetti di Monitoring per il Machine Learning

Hakim Elakhrass

Co-founder and CEO of NannyML

Rilevamento drift multivariato

  • Cerca cambiamenti nella distribuzione congiunta

 

 

  • Usa l'algoritmo PCA per comprimere i dati

 

 

  • Usa l'errore di ricostruzione per misurare il drift

L'immagine mostra un workflow di rilevamento drift multivariato: i dati multidimensionali vengono compressi nello spazio latente e poi decompressi alla forma originale con una certa ricostruzione.

Il grafico illustra le fluttuazioni dell'errore di drift nella ricostruzione nel tempo.

Concetti di Monitoring per il Machine Learning

Rilevamento drift univariato

Tipi di variabili:

  • Categoriche: rappresentano tipi di dati divisibili in gruppi, es. stato civile, fumatore, livello di istruzione

 

  • Continue: variabili con infiniti valori reali in un intervallo, es. altezza, peso, distanza, tempo
Concetti di Monitoring per il Machine Learning

Metodi continui - Jensen-Shannon

  • Misura la somiglianza di due distribuzioni

  • Intervallo [0, 1]

  • Intercetta drift di bassa entità ma significativi

L'immagine mostra il cambiamento della distribuzione misurato con la distanza di Jensen-Shannon.

Concetti di Monitoring per il Machine Learning

Metodi continui - Wasserstein

  • Minimo sforzo per trasformare una distribuzione nell'altra

  • Intervallo [0, +inf]

  • Sensibile ai valori anomali

L'immagine mostra il cambiamento della distribuzione misurato con la distanza di Wasserstein.

Concetti di Monitoring per il Machine Learning

Metodi continui - Kolmogorov-Smirnov

  • Distanza massima tra le funzioni di distribuzione cumulata

  • Intervallo [0, 1]

  • Incline ai falsi positivi

L'immagine mostra il cambiamento della distribuzione misurato con la distanza di Kolmogorov-Smirnov.

Concetti di Monitoring per il Machine Learning

Metodi continui - Hellinger

  • Sovrapposizione tra distribuzioni
  • Intervallo [0, 1]
  • Non distingue bene shift forti

 

Metodi continui - Consiglio

  • Jensen-Shannon e Wasserstein in genere funzionano bene

L'immagine mostra il cambiamento della distribuzione misurato con la distanza di Hellinger.

Concetti di Monitoring per il Machine Learning

Metodi categorici - Chi-quadro

  • Sensibile a variazioni in categorie poco frequenti

L'immagine mostra una visualizzazione della statistica chi-quadro per una variabile categorica con due categorie, a e b.

Concetti di Monitoring per il Machine Learning

Metodi categorici - L-infinito

  • Identifica lo shift più rilevante tra tutte le categorie

L'immagine mostra una visualizzazione del metodo L-infinito per una variabile categorica con tre categorie, a, b e c.

Concetti di Monitoring per il Machine Learning

Metodi categorici - Jensen-Shannon e Hellinger

  • Jensen-Shannon o L-infinito con molte categorie
  • Distanza L-infinito per cambiamenti in singole categorie

L'immagine mostra una visualizzazione dei metodi Jensen-Shannon e Hellinger per una variabile categorica con tre categorie, a, b e c.

Concetti di Monitoring per il Machine Learning

Andiamo a fare pratica!

Concetti di Monitoring per il Machine Learning

Preparing Video For Download...