Veri kayması

Uçtan Uca Machine Learning

Joshua Stapleton

Machine Learning Engineer

Veri kayması tespiti gereksinimi

Zamana göre farklı yaşlarda kalp hastalığı dağılımındaki değişimi gösteren grafik - bugün kalp hastalığı vakaları daha az ve daha ileri yaşta görülüyor

Uçtan Uca Machine Learning

Kolmogorov-Smirnov testi

  • Veri kaymasını tespitte yaygın
  • Dağılım benzerliğini belirlemek için örnek kümeleri karşılaştırır

Başlangıç eğitim veri seti dağılımı ile veri kaymasına uğramış yeni çıkarım veri seti dağılımı arasındaki farkı gösteren iki grafik

Uçtan Uca Machine Learning

ks_2samp() fonksiyonunu kullanma

  • ks_2samp() iki değer döndürür: test istatistiği ve p-değeri.
  • p-değeri ile dağılım benzerliği yokluk hipotezini kabul/ret edin.
from scipy.stats import ks_2samp
# karşılaştırma için 1B dağılım örneklerini yükleyin
sample_1, sample_2 = training_dataset_sample, current_inference_sample
# KS testini uygulayın - girdilerin numpy dizileri olduğundan emin olun
test_statistic, p_value = ks_2samp(sample_1, sample_2)
if p_value < 0.05:
    print("Null hipotezi reddedildi - veri kayması olabilir")
else:
    print("Örnekler muhtemelen aynı dağılımdan")
Uçtan Uca Machine Learning

Veri kaymasını düzeltme

Yeni veriye göre modeli güncelleyin

  • Modeli yeniden eğitin
  • Model parametrelerini yeniden ayarlayın/güncelleyin

Yeterli yeni/çıkarım verisi yok mu?

  • Modeli karışık veri setiyle yeniden eğitin
  • Yeni veri miktarını artırın

Veri kayması yaşayan bir modeli yeniden eğitme ve yeniden dağıtma sürecini gösteren akış şeması

Zamanla yeni veri geldikçe artan miktarda yeni veriyle modeli periyodik olarak yeniden eğitmeyi gösteren diyagram

Uçtan Uca Machine Learning

Veri kaymasını tespit ve düzeltmek için ek kaynaklar

  • Population Stability Index (PSI)

    • Tekil kategorik değişkenleri/sütunları karşılaştırır
  • Evidently

    • Açık kaynak Python kütüphanesi
    • Veri kaymasını sağlam biçimde test edin ve düzeltin
  • NannyML

    • Dağıtımdaki model performansını izleyin
Uçtan Uca Machine Learning

Haydi pratik yapalım!

Uçtan Uca Machine Learning

Preparing Video For Download...