Cara mendeteksi covariate shift

Konsep Monitoring Machine Learning

Hakim Elakhrass

Co-founder and CEO of NannyML

Deteksi drift multivariat

  • Mencari perubahan pada distribusi gabungan

 

 

  • Menggunakan algoritma PCA untuk kompresi data

 

 

  • Menggunakan error rekonstruksi sebagai ukuran drift

Gambar menampilkan alur deteksi drift multivariat, di mana data multidimensi dikompresi ke ruang laten lalu didekompresi kembali dengan rekonstruksi tertentu.

Grafik menunjukkan fluktuasi error drift rekonstruksi data dari waktu ke waktu.

Konsep Monitoring Machine Learning

Deteksi drift univariat

Jenis variabel:

  • Kategorikal - merepresentasikan tipe data yang dibagi dalam kelompok, mis. status perkawinan, status merokok, tingkat pendidikan

 

  • Kontinu - variabel dengan tak hingga nilai riil dalam suatu interval, mis. tinggi badan, berat, jarak, waktu
Konsep Monitoring Machine Learning

Metode kontinu - Jensen–Shannon

  • Mengukur kemiripan dua distribusi

  • Rentang [0, 1]

  • Menangkap drift kecil yang bermakna

Gambar menampilkan perubahan distribusi yang diukur dengan jarak Jensen–Shannon.

Konsep Monitoring Machine Learning

Metode kontinu - Wasserstein

  • Upaya minimum untuk mengubah satu distribusi menjadi lainnya

  • Rentang [0, +inf]

  • Peka terhadap outlier

Gambar menampilkan perubahan distribusi yang diukur dengan jarak Wasserstein.

Konsep Monitoring Machine Learning

Metode kontinu - Kolmogorov–Smirnov

  • Jarak maksimum antar fungsi distribusi kumulatif

  • Rentang [0, 1]

  • Rentan positif palsu

Gambar menampilkan perubahan distribusi yang diukur dengan jarak Kolmogorov–Smirnov.

Konsep Monitoring Machine Learning

Metode kontinu - Hellinger

  • Tumpang tindih antar distribusi
  • Rentang [0, 1]
  • Tidak membedakan pergeseran yang kuat

 

Metode kontinu - Rekomendasi

  • Jensen–Shannon dan Wasserstein umumnya bagus

Gambar menampilkan perubahan distribusi yang diukur dengan jarak Hellinger.

Konsep Monitoring Machine Learning

Metode kategorikal - Chi-kuadrat

  • Peka terhadap perubahan pada kategori berfrekuensi rendah

Gambar menampilkan visualisasi statistik chi-kuadrat untuk variabel kategorikal dengan dua kategori, a dan b.

Konsep Monitoring Machine Learning

Metode kategorikal - L-infinity

  • Mengidentifikasi pergeseran paling signifikan di semua kategori

Gambar menampilkan visualisasi metode L-Infinity untuk variabel kategorikal dengan tiga kategori, a, b, dan c.

Konsep Monitoring Machine Learning

Metode kategorikal - Jensen–Shannon dan Hellinger

  • Jensen–Shannon atau L-Infinity untuk banyak kategori
  • Jarak L-Infinity untuk mendeteksi perubahan pada kategori individual

Gambar menampilkan visualisasi metode Jensen–Shannon dan Hellinger untuk variabel kategorikal dengan tiga kategori, a, b, dan c.

Konsep Monitoring Machine Learning

Ayo berlatih!

Konsep Monitoring Machine Learning

Preparing Video For Download...