Anomali tespiti

Python'da Machine Learning İş Akışları Tasarlama

Dr. Chris Anagnostopoulos

Honorary Associate Professor

Anomaliler ve aykırı değerler

Denetimli

Siyah iki küme ve bazı izole kırmızı noktalar.

Denetimsiz

Siyah iki küme ve bazı izole siyah noktalar.

Python'da Machine Learning İş Akışları Tasarlama

Anomaliler ve aykırı değerler

Siyah iki küme ve bazı izole siyah noktalar.

  • İki sınıftan biri çok nadir
  • Veri kümesi kaymasının aşırı durumu
  • Örnekler:
    • siber güvenlik
    • dolandırıcılık tespiti
    • kara para aklamayı önleme
    • arıza tespiti
Python'da Machine Learning İş Akışları Tasarlama

Denetimsiz iş akışları

Siyah iki küme ve kırmızıyla daire içine alınmış bazı izole siyah noktalar.

  • Etiket olmadan bir algoritma nasıl uydurulur?
  • Performansı nasıl ölçülür?

Az sayıda etiketi dikkatli kullanın:

  • aşırı uyum olmadan eğitim için yetersiz
  • model seçimi için yeterli
  • önyargısız doğruluk tahminini bırakın

Eğitim, seçim ve doğrulama olarak bölünmüş bir veri kümesi; etiketler yalnızca seçimde var.

Python'da Machine Learning İş Akışları Tasarlama
  • Aykırı değer: verilerin çoğunun aralığı dışında kalan veri noktası

Siyah iki küme ve bazı izole siyah noktalar. En uzaktaki nokta kırmızıyla daire içine alınmış.

  • Yerel aykırı değer: başka veri olmayan izole bir bölgede yer alan nokta

Siyah iki küme ve bazı izole siyah noktalar. İki küme arasında kalan izole noktalar kırmızıyla daire içine alınmış.

Python'da Machine Learning İş Akışları Tasarlama

Yerel aykırılık faktörü (LoF)

Siyah iki küme ve bazı izole siyah noktalar. İki sınıf arasında kalan bir nokta kırmızıyla, kümelerden birine yakın en yakın komşusu maviyle daire içine alınmış.

Python'da Machine Learning İş Akışları Tasarlama

Yerel aykırılık faktörü (LoF)

from sklearn.neighbors import 
   LocalOutlierFactor as lof
clf = lof()
y_pred = clf.fit_predict(X)
y_pred[:4]
array([ 1,  1,  1, -1])
clf.negative_outlier_factor_[:4]
array([-0.99, -1.02, -1.08 , -0.97])
confusion_matrix(
   y_pred, ground_truth)
array([[  5,  16],
       [  0, 184]])

Aynı kümeler ve bazı izole noktalar. Kümelerin içinden ve izole olanlardan çok sayıda nokta kırmızıyla daire içine alınmış.

Python'da Machine Learning İş Akışları Tasarlama

Yerel aykırılık faktörü (LoF)

clf = lof(contamination=0.02)
y_pred = clf.fit_predict(X)
confusion_matrix(
   y_pred, ground_truth)
array([[  5,   0],
       [  0, 200]])

Aynı kümeler ve bazı izole noktalar. Yalnızca izole noktalar kırmızıyla daire içine alınmış.

Python'da Machine Learning İş Akışları Tasarlama

Etiketlere kimin ihtiyacı var ki!

Python'da Machine Learning İş Akışları Tasarlama

Preparing Video For Download...