Dal dataset al modello di rilevazione

Rilevamento delle frodi in R

Sebastiaan Höppner

PhD researcher in Data Science at KU Leuven

Roadmap

(1) Dividi il dataset in training set e test set
(2) Scegli un modello di machine learning
(3) Applica SMOTE al training set per bilanciare le classi
(4) Allena il modello sul training set riequilibrato
(5) Valuta le performance sul test set (originale)

Dividi il dataset in training e test

Dividi il dataset in training set e test set (es. 50/50, 75/25, ...)
All'inizio, assicurati che entrambi abbiano la stessa distribuzione di classi
Esempio: 50% training set e 50% test set

prop.table(table(train$Class))

   0    1 
0.98 0.02

prop.table(table(test$Class))

   0    1 
0.98 0.02

Scegli e allena il modello di ML

Albero di decisione, rete neurale, SVM, regressione logistica, random forest, Naive Bayes, k-Nearest Neighbors, ...
Esempio: algoritmo Classification And Regression Tree (CART)
Funzione rpart nel pacchetto rpart

library(rpart)

model1 = rpart(Class ~ ., data = train)

library(partykit)
plot(as.party(model1))

tree1

## Predici la probabilità di frode sul test set
scores1 = predict(model1, newdata = test, type = "prob")[, 2]

## Predici la classe (frode o no) sul test set
predicted_class1 = factor(ifelse(scores1 > 0.5, 1, 0))

## Matrice di confusione e accuracy,
library(caret)
CM1 = confusionMatrix(data = predicted_class1, reference = test$Class)

          Reference         
Prediction     0     1
         0 12046    55
         1     8   191       Accuracy : 0.994878

library(pROC)
auc(roc(response = test$Class, predictor = scores1)) ## Area Under ROC Curve (AUC)

Area under the ROC curve: 0.8938

Applica SMOTE al training set

library(smotefamily)
set.seed(123)

smote_result = SMOTE(X = train[, -17],
                     target = train$Class,
                     K = 5,
                     dup_size = 10)

train_oversampled = smote_result$data
colnames(train_oversampled)[17] = "Class"


prop.table(table(train_oversampled$Class))

        0         1 
0.8166667 0.1833333

library(rpart)
model2 = rpart(Class ~ ., data = train_oversampled)

tree2

## Predici la probabilità di frode sul test set
scores2 = predict(model2, newdata = test, type = "prob")[, 2]

## Predici la classe (frode o no) sul test set
predicted_class2 = factor(ifelse(scores2 > 0.5, 1, 0))

## Matrice di confusione e accuracy
library(caret)
CM2 = confusionMatrix(data = predicted_class2, reference = test$Class)

          Reference
Prediction     0     1
         0 11967    34
         1    87   212       Accuracy : 0.9901626

library(pROC)
auc(roc(response = test$Class, predictor = scores2)) ## Area Under ROC Curve (AUC)

Area under the curve: 0.9538

Costo di deploy di un modello di rilevazione

Considera i diversi costi del rilevamento frodi nella valutazione dell'algoritmo
I costi sono associati a
- errori di classificazione (falsi positivi e falsi negativi) e
- classificazioni corrette (veri positivi e veri negativi)

Matrice dei costi

matrice_dei_costi_1

$y_i$ = classe vera del caso $i$
$c_i$ = classe predetta per il caso $i$

Matrice dei costi

matrice_dei_costi_2

$y_i$ = classe vera del caso $i$
$c_i$ = classe predetta per il caso $i$

Matrice dei costi

matrice_dei_costi_3

$C_a$ = costo di analisi del caso

Matrice dei costi

matrice_dei_costi_4

$C_a$ = costo di analisi del caso

Misura di costo per un modello di rilevazione

Considera i costi effettivi di ogni caso: $$Cost(model)=\sum_{i=1}^{N}y_i(1-c_i)Amount_i + c_iC_a$$
- $y_i$ = classe vera del caso $i$
- $c_i$ = classe predetta per il caso $i$

cost_model = function(predicted.classes, true.classes, amounts, fixedcost) {

    cost = sum(true.classes * (1 - predicted.classes) * amounts +
               predicted.classes * fixedcost)

    return(cost)
}

Costo reale del rilevamento frodi

## Costo totale senza SMOTE:
cost_model(predicted_class1, test$Class, test$Amount, fixedcost = 10)

10061.8

## Costo totale con SMOTE:
cost_model(predicted_class2, test$Class, test$Amount, fixedcost = 10)

7431.93

Le perdite calano del 26%!

Ayo berlatih!

Rilevamento delle frodi in R