Van dataset naar detectiemodel

Fraudedetectie in R

Sebastiaan Höppner

PhD researcher in Data Science at KU Leuven

Routekaart

(1) Verdeel dataset in trainingsset en testset
(2) Kies een machine learning model
(3) Pas SMOTE toe op trainingsset om de klassen te balanceren
(4) Train model op hergebalanceerde trainingsset
(5) Test prestatie op (originele) testset

Verdeel dataset in training & test

Splits de dataset in een trainingsset en een testset (bijv. 50/50, 75/25, ...)
Zorg dat beide sets eerst dezelfde klassenverdeling hebben
Voorbeeld: 50% trainingsset en 50% testset

prop.table(table(train$Class))

   0    1 
0.98 0.02

prop.table(table(test$Class))

   0    1 
0.98 0.02

Kies & train een machine learning-model

Decision tree, artificial neural network, support vector machines, logistic regression, random forest, Naive Bayes, k-Nearest Neighbors, ...
Voorbeeld: Classification And Regression Tree (CART)
Functie rpart in pakket rpart

library(rpart)

model1 = rpart(Class ~ ., data = train)

library(partykit)
plot(as.party(model1))

boom1

## Voorspel fraude-kans voor testset
scores1 = predict(model1, newdata = test, type = "prob")[, 2]

## Voorspel klasse (fraude of niet) voor testset
predicted_class1 = factor(ifelse(scores1 > 0.5, 1, 0))

## Confusion matrix & nauwkeurigheid
library(caret)
CM1 = confusionMatrix(data = predicted_class1, reference = test$Class)

          Reference         
Prediction     0     1
         0 12046    55
         1     8   191       Accuracy : 0.994878

library(pROC)
auc(roc(response = test$Class, predictor = scores1)) ## Area Under ROC Curve (AUC)

Area under the ROC curve: 0.8938

Pas SMOTE toe op de trainingsset

library(smotefamily)
set.seed(123)

smote_result = SMOTE(X = train[, -17],
                     target = train$Class,
                     K = 5,
                     dup_size = 10)

train_oversampled = smote_result$data
colnames(train_oversampled)[17] = "Class"


prop.table(table(train_oversampled$Class))

        0         1 
0.8166667 0.1833333

library(rpart)
model2 = rpart(Class ~ ., data = train_oversampled)

tree2

## Voorspel fraude-kans voor testset
scores2 = predict(model2, newdata = test, type = "prob")[, 2]

## Voorspel klasse (fraude of niet) voor testset
predicted_class2 = factor(ifelse(scores2 > 0.5, 1, 0))

## Confusion matrix & nauwkeurigheid
library(caret)
CM2 = confusionMatrix(data = predicted_class2, reference = test$Class)

          Reference
Prediction     0     1
         0 11967    34
         1    87   212       Accuracy : 0.9901626

library(pROC)
auc(roc(response = test$Class, predictor = scores2)) ## Area Under ROC Curve (AUC)

Area under the curve: 0.9538

Kosten van het inzetten van een detectiemodel

Houd rekening met de verschillende kosten van fraudedetectie bij de evaluatie van een algoritme
Kosten zijn gekoppeld aan
- misclassificatiefouten (false positives & false negatives) en
- juiste classificaties (true positives & true negatives)

Kostenmatrix

kostenmatrix_1

$y_i$ = echte klasse van case $i$
$c_i$ = voorspelde klasse voor case $i$

Kostenmatrix

kostenmatrix_2

$y_i$ = echte klasse van case $i$
$c_i$ = voorspelde klasse voor case $i$

Kostenmatrix

kostenmatrix_3

$C_a$ = kosten voor het analyseren van de case

Kostenmatrix

kostenmatrix_4

$C_a$ = kosten voor het analyseren van de case

Kostmaat voor een detectiemodel

Neem de werkelijke kosten per case mee: $$Cost(model)=\sum_{i=1}^{N}y_i(1-c_i)Amount_i + c_iC_a$$
- $y_i$ = echte klasse van case $i$
- $c_i$ = voorspelde klasse voor case $i$

cost_model = function(predicted.classes, true.classes, amounts, fixedcost) {

    cost = sum(true.classes * (1 - predicted.classes) * amounts +
               predicted.classes * fixedcost)

    return(cost)
}

Werkelijke kosten van fraudedetectie

## Totale kosten zonder SMOTE:
cost_model(predicted_class1, test$Class, test$Amount, fixedcost = 10)

10061.8

## Totale kosten met SMOTE:
cost_model(predicted_class2, test$Class, test$Amount, fixedcost = 10)

7431.93

Verlies daalt met 26%!

Laten we oefenen!

Fraudedetectie in R