Etiketler, zayıf etiketler ve gerçek

Python'da Machine Learning İş Akışları Tasarlama

Dr. Chris Anagnostopoulos

Honorary Associate Professor

Etiketler her zaman kusursuz değildir

Doğruluk düzeyleri:

Gerçek değer (ground truth)
- bilgisayar çöker ve fidye isteyen bir mesaj çıkar
Uzman tarafından etiketleme
- analist günlükleri inceler ve yetkisiz davranışları tespit eder
Sezgisel etiketleme
- çok kısa sürede çok fazla porta trafik gelmiştir

Gürültüsüz veya güçlü etiketler:

Gürültülü veya zayıf etiketler:

Özellik mühendisliği:

Her enfekte ana bilgisayarın ziyaret ettiği benzersiz bağlantı noktası ortalaması:

np.mean(X[y]['unique_ports'])

15.11

Etiketlerden bağımsız, ana bilgisayar başına benzersiz bağlantı noktası ortalaması:

np.mean(X['unique_ports'])

11.23

Bir özelliği etiketleme sezgisine dönüştürün:

X_train, X_test, y_train, y_test = train_test_split(X, y)
y_weak_train = X_train['unique_ports'] > 15

Özellik matrisi üst üste iki kez yığılmıştır. Birinde alan uzmanlarının ürettiği etiketler, diğerinde sezgisel yöntemle üretilen etiketler vardır.

X_train_aug = pd.concat([X_train, X_train])
y_train_aug = pd.concat([pd.Series(y_train), pd.Series(y_weak_train)])

Veriler önceki slaydaki gibi yığılmıştır; özgün etiketlere 1,0 ağırlık, sezgisel yöntemle üretilenlere 0,5 ağırlık verilmiştir.

weights = [1.0]*len(y_train) + [0.1]*len(y_weak_train)

Yalnızca gerçek değerlerle doğruluk:

0.91

Ağırlıksız gerçek ve zayıf etiketler:

accuracy_score(y_test, clf.fit(X_train_aug, y_train_aug).predict(X_test))

0.93

Ağırlık ekleyin:

accuracy_score(y_test, clf.fit(X_train_aug, y_train_aug, sample_weight=weights).predict(X_test))

0.95

Python'da Machine Learning İş Akışları Tasarlama