Python'da Machine Learning İş Akışları Tasarlama
Dr. Chris Anagnostopoulos
Honorary Associate Professor
Doğruluk düzeyleri:
Gürültüsüz veya güçlü etiketler:
Gürültülü veya zayıf etiketler:
Özellik mühendisliği:
Her enfekte ana bilgisayarın ziyaret ettiği benzersiz bağlantı noktası ortalaması:
np.mean(X[y]['unique_ports'])
15.11
Etiketlerden bağımsız, ana bilgisayar başına benzersiz bağlantı noktası ortalaması:
np.mean(X['unique_ports'])
11.23
Bir özelliği etiketleme sezgisine dönüştürün:
X_train, X_test, y_train, y_test = train_test_split(X, y)
y_weak_train = X_train['unique_ports'] > 15


X_train_aug = pd.concat([X_train, X_train])
y_train_aug = pd.concat([pd.Series(y_train), pd.Series(y_weak_train)])

weights = [1.0]*len(y_train) + [0.1]*len(y_weak_train)
Yalnızca gerçek değerlerle doğruluk:
0.91
Ağırlıksız gerçek ve zayıf etiketler:
accuracy_score(y_test, clf.fit(X_train_aug, y_train_aug).predict(X_test))
0.93
Ağırlık ekleyin:
accuracy_score(y_test, clf.fit(X_train_aug, y_train_aug, sample_weight=weights).predict(X_test))
0.95
Python'da Machine Learning İş Akışları Tasarlama