Dal dataset al modello di rilevazione

Rilevamento delle frodi in R

Sebastiaan Höppner

PhD researcher in Data Science at KU Leuven

Roadmap

  • (1) Dividi il dataset in training set e test set
  • (2) Scegli un modello di machine learning
  • (3) Applica SMOTE al training set per bilanciare le classi
  • (4) Allena il modello sul training set riequilibrato
  • (5) Valuta le performance sul test set (originale)
Rilevamento delle frodi in R

Dividi il dataset in training e test

  • Dividi il dataset in training set e test set (es. 50/50, 75/25, ...)
  • All'inizio, assicurati che entrambi abbiano la stessa distribuzione di classi
  • Esempio: 50% training set e 50% test set
prop.table(table(train$Class))
   0    1 
0.98 0.02
prop.table(table(test$Class))
   0    1 
0.98 0.02
Rilevamento delle frodi in R

Scegli e allena il modello di ML

  • Albero di decisione, rete neurale, SVM, regressione logistica, random forest, Naive Bayes, k-Nearest Neighbors, ...
  • Esempio: algoritmo Classification And Regression Tree (CART)
  • Funzione rpart nel pacchetto rpart
library(rpart)

model1 = rpart(Class ~ ., data = train)
Rilevamento delle frodi in R
library(partykit)
plot(as.party(model1))

tree1

Rilevamento delle frodi in R
## Predici la probabilità di frode sul test set
scores1 = predict(model1, newdata = test, type = "prob")[, 2]

## Predici la classe (frode o no) sul test set predicted_class1 = factor(ifelse(scores1 > 0.5, 1, 0))
## Matrice di confusione e accuracy, library(caret) CM1 = confusionMatrix(data = predicted_class1, reference = test$Class)
          Reference         
Prediction     0     1
         0 12046    55
         1     8   191       Accuracy : 0.994878
library(pROC)
auc(roc(response = test$Class, predictor = scores1)) ## Area Under ROC Curve (AUC)
Area under the ROC curve: 0.8938
Rilevamento delle frodi in R

Applica SMOTE al training set

library(smotefamily)
set.seed(123)

smote_result = SMOTE(X = train[, -17],
                     target = train$Class,
                     K = 5,
                     dup_size = 10)

train_oversampled = smote_result$data colnames(train_oversampled)[17] = "Class"
prop.table(table(train_oversampled$Class))
        0         1 
0.8166667 0.1833333
Rilevamento delle frodi in R
library(rpart)
model2 = rpart(Class ~ ., data = train_oversampled)

tree2

Rilevamento delle frodi in R
## Predici la probabilità di frode sul test set
scores2 = predict(model2, newdata = test, type = "prob")[, 2]

## Predici la classe (frode o no) sul test set predicted_class2 = factor(ifelse(scores2 > 0.5, 1, 0))
## Matrice di confusione e accuracy library(caret) CM2 = confusionMatrix(data = predicted_class2, reference = test$Class)
          Reference
Prediction     0     1
         0 11967    34
         1    87   212       Accuracy : 0.9901626                                
library(pROC)
auc(roc(response = test$Class, predictor = scores2)) ## Area Under ROC Curve (AUC)
Area under the curve: 0.9538
Rilevamento delle frodi in R

Costo di deploy di un modello di rilevazione

  • Considera i diversi costi del rilevamento frodi nella valutazione dell'algoritmo
  • I costi sono associati a
    • errori di classificazione (falsi positivi e falsi negativi) e
    • classificazioni corrette (veri positivi e veri negativi)
Rilevamento delle frodi in R

Matrice dei costi

matrice_dei_costi_1

  • $y_i$ = classe vera del caso $i$
  • $c_i$ = classe predetta per il caso $i$
Rilevamento delle frodi in R

Matrice dei costi

matrice_dei_costi_2

  • $y_i$ = classe vera del caso $i$
  • $c_i$ = classe predetta per il caso $i$
Rilevamento delle frodi in R

Matrice dei costi

matrice_dei_costi_3

  • $C_a$ = costo di analisi del caso
Rilevamento delle frodi in R

Matrice dei costi

matrice_dei_costi_4

  • $C_a$ = costo di analisi del caso
Rilevamento delle frodi in R

Misura di costo per un modello di rilevazione

  • Considera i costi effettivi di ogni caso: $$Cost(model)=\sum_{i=1}^{N}y_i(1-c_i)Amount_i + c_iC_a$$
    • $y_i$ = classe vera del caso $i$
    • $c_i$ = classe predetta per il caso $i$
cost_model = function(predicted.classes, true.classes, amounts, fixedcost) {

    cost = sum(true.classes * (1 - predicted.classes) * amounts +
               predicted.classes * fixedcost)

    return(cost)
}
Rilevamento delle frodi in R

Costo reale del rilevamento frodi

## Costo totale senza SMOTE:
cost_model(predicted_class1, test$Class, test$Amount, fixedcost = 10)
10061.8
## Costo totale con SMOTE:
cost_model(predicted_class2, test$Class, test$Amount, fixedcost = 10)
7431.93
  • Le perdite calano del 26%!
Rilevamento delle frodi in R

Ayo berlatih!

Rilevamento delle frodi in R

Preparing Video For Download...