Funzioni di loss Parte I

Progettare workflow di Machine Learning in Python

Dr. Chris Anagnostopoulos

Honorary Associate Professor

Il dataset KDD '99 cup

kdd.iloc[0]

kdd.iloc[0]
duration                         51
protocol_type                   tcp
service                        smtp
flag                             SF
src_bytes                      1169
dst_bytes                       332
land                              0
...
dst_host_rerror_rate              0
dst_host_srv_rerror_rate          0
label                          good

Falsi positivi vs falsi negativi

Binarizza l'etichetta:

kdd['label'] = kdd['label'] == 'bad'

Allena un Gaussian Naive Bayes:

clf = GaussianNB().fit(X_train, y_train)
predictions = clf.predict(X_test)
results = pd.DataFrame({
    'actual': y_test,
    'predicted': predictions
})

Falsi positivi vs falsi negativi

Binarizza l'etichetta:

kdd['label'] = kdd['label'] == 'bad'

Allena un Gaussian Naive Bayes:

clf = GaussianNB().fit(X_train, y_train)
predictions = clf.predict(X_test)
results = pd.DataFrame({
    'actual': y_test,
    'predicted': predictions
})

Ci sono quattro possibili configurazioni etichetta vs previsione: entrambe True, entrambe False, etichetta True e previsione False, ed etichetta False e previsione True. Qui è evidenziata l’ultima combinazione.

Falsi positivi vs falsi negativi

Binarizza l'etichetta:

kdd['label'] = kdd['label'] == 'bad'

Allena un Gaussian Naive Bayes:

clf = GaussianNB().fit(X_train, y_train)
predictions = clf.predict(X_test)
results = pd.DataFrame({
    'actual': y_test,
    'predicted': predictions
})

Qui invece è evidenziata la combinazione etichetta True e previsione False.

Falsi positivi vs falsi negativi

Binarizza l'etichetta:

kdd['label'] = kdd['label'] == 'bad'

Allena un Gaussian Naive Bayes:

clf = GaussianNB().fit(X_train, y_train)
predictions = clf.predict(X_test)
results = pd.DataFrame({
    'actual': y_test,
    'predicted': predictions
})

Ora sono evidenziati i due casi in cui la previsione coincide con le etichette.

La matrice di confusione

conf_mat = confusion_matrix(
    ground_truth, predictions)

array([[9477,   19],
       [ 397, 2458]])

tn, fp, fn, tp = conf_mat.ravel()
(fp, fn)

(19, 397)

Una matrice di confusione che conta i casi per ognuna delle quattro combinazioni viste prima, per questo dataset.

Metriche di performance scalari

accuracy = 1-(fp + fn)/len(ground_truth)

recall = tp/(tp+fn)

fpr = fp/(tn+fp)

precision = tp/(tp+fp)

f1 = 2*(precision*recall)/(precision+recall)

accuracy_score(ground_truth, predictions)
recall_score(ground_truth, predictions)
precision_score(ground_truth, predictions)
f1_score(ground_truth, predictions)

Falsi positivi vs falsi negativi

Classificatore A:

tn, fp, fn, tp = confusion_matrix(
    ground_truth, predictions_A).ravel()
(fp,fn)

(3, 3)

cost = 10 * fp + fn

Classificatore B:

tn, fp, fn, tp = confusion_matrix(
    ground_truth, predictions_B).ravel()
(fp,fn)

(0, 26)

cost = 10 * fp + fn

Quale classificatore è migliore?

Progettare workflow di Machine Learning in Python