Che cos’è il covariate shift?

Concetti di Monitoring per il Machine Learning

Hakim Elakhrass

Co-founder and CEO of NannyML

Definizioni

  • variabili covariate = feature di input
  • P(X) cambia
  • la probabilità condizionata P(Y|X) resta uguale
  • cambiamenti nella distribuzione congiunta delle covariate
Concetti di Monitoring per il Machine Learning

Perché la distribuzione congiunta?

Un grafico mostra correlazioni positive e negative tra feature 1 e feature 2. La correlazione positiva è alla settimana 10 (blu), quella negativa alla settimana 16 (rosso).

Concetti di Monitoring per il Machine Learning

Perché si verifica il covariate shift?

Possibili cause del covariate shift:

  • Il mondo reale non è stazionario: pattern e trend evolvono
  • Cambi di sorgenti dati: differenze tra raccolta in test e in produzione
  • Evoluzione di sistema e ambiente
Concetti di Monitoring per il Machine Learning

Come si manifesta il covariate shift?

Dinamiche di cambiamento della distribuzione:

  • Improvviso

 

  • Graduale

 

  • Stagionale

 

L’immagine mostra un cambiamento improvviso nella distribuzione dei dati. Inizialmente i punti sono blu; dopo un certo tempo passano bruscamente al rosso.

L’immagine illustra un cambiamento graduale nella distribuzione. I punti partono blu e col tempo passano al rosso, per poi tornare al blu. All’inizio cambia un solo punto; dopo un po’, tutta la distribuzione diventa rossa.

L’immagine illustra un cambiamento stagionale nella distribuzione. I punti passano dal blu al rosso e poi tornano al blu, ripetendo ciclicamente.

Concetti di Monitoring per il Machine Learning

Come rilevare il covariate shift?

Metodo univariato

Una distribuzione dei valori di produzione per ogni mese da settembre a marzo. In totale ci sono sette distribuzioni. Da settembre a dicembre sono simili, con piccole variazioni accettabili, perciò sono blu. Da gennaio a marzo si restringono e la media scende, diventando rosse perché le variazioni sono più marcate.

Metodo multivariato

Un workflow di rilevamento del drift multivariato: i dati multidimensionali vengono compressi nello spazio latente e decompressi nella forma iniziale con un certo errore.

1 https://app.datacamp.com/learn/courses/dimensionality-reduction-in-python
Concetti di Monitoring per il Machine Learning

Passons à la pratique !

Concetti di Monitoring per il Machine Learning

Preparing Video For Download...