Dari dataset ke model deteksi

Deteksi Fraud di R

Sebastiaan Höppner

PhD researcher in Data Science at KU Leuven

Peta jalan

(1) Bagi dataset menjadi training set dan test set
(2) Pilih model machine learning
(3) Terapkan SMOTE pada training set untuk menyeimbangkan distribusi kelas
(4) Latih model pada training set yang sudah seimbang
(5) Uji kinerja pada test set (asli)

Bagi dataset menjadi training & test set

Bagi dataset menjadi training set dan test set (mis. 50/50, 75/25, ...)
Pastikan keduanya awalnya punya distribusi kelas yang sama
Contoh: 50% training set dan 50% test set

prop.table(table(train$Class))

   0    1 
0.98 0.02

prop.table(table(test$Class))

   0    1 
0.98 0.02

Pilih & latih model machine learning

Decision tree, artificial neural network, support vector machines, logistic regression, random forest, Naive Bayes, k-Nearest Neighbors, ...
Contoh: algoritme Classification And Regression Tree (CART)
Fungsi rpart di paket rpart

library(rpart)

model1 = rpart(Class ~ ., data = train)

library(partykit)
plot(as.party(model1))

tree1

## Prediksi probabilitas fraud pada test set
scores1 = predict(model1, newdata = test, type = "prob")[, 2]

## Prediksi kelas (fraud atau bukan) pada test set
predicted_class1 = factor(ifelse(scores1 > 0.5, 1, 0))

## Confusion matrix & akurasi,
library(caret)
CM1 = confusionMatrix(data = predicted_class1, reference = test$Class)

          Reference         
Prediction     0     1
         0 12046    55
         1     8   191       Accuracy : 0.994878

library(pROC)
auc(roc(response = test$Class, predictor = scores1)) ## Area Under ROC Curve (AUC)

Area under the ROC curve: 0.8938

Terapkan SMOTE pada training set

library(smotefamily)
set.seed(123)

smote_result = SMOTE(X = train[, -17],
                     target = train$Class,
                     K = 5,
                     dup_size = 10)

train_oversampled = smote_result$data
colnames(train_oversampled)[17] = "Class"


prop.table(table(train_oversampled$Class))

        0         1 
0.8166667 0.1833333

library(rpart)
model2 = rpart(Class ~ ., data = train_oversampled)

tree2

## Prediksi probabilitas fraud pada test set
scores2 = predict(model2, newdata = test, type = "prob")[, 2]

## Prediksi kelas (fraud atau bukan) pada test set
predicted_class2 = factor(ifelse(scores2 > 0.5, 1, 0))

## Confusion matrix & akurasi
library(caret)
CM2 = confusionMatrix(data = predicted_class2, reference = test$Class)

          Reference
Prediction     0     1
         0 11967    34
         1    87   212       Accuracy : 0.9901626

library(pROC)
auc(roc(response = test$Class, predictor = scores2)) ## Area Under ROC Curve (AUC)

Area under the curve: 0.9538

Biaya penerapan model deteksi

Perhitungkan biaya deteksi fraud saat evaluasi algoritma
Biaya terkait dengan
- kesalahan klasifikasi (false positive & false negative) dan
- klasifikasi benar (true positive & true negative)

Matriks biaya

cost_matrix_1

$y_i$ = kelas sebenarnya kasus $i$
$c_i$ = kelas prediksi untuk kasus $i$

Matriks biaya

cost_matrix_2

$y_i$ = kelas sebenarnya kasus $i$
$c_i$ = kelas prediksi untuk kasus $i$

Matriks biaya

cost_matrix_3

$C_a$ = biaya analisis kasus

Matriks biaya

cost_matrix_4

$C_a$ = biaya analisis kasus

Ukuran biaya untuk model deteksi

Perhitungkan biaya aktual tiap kasus: $$Cost(model)=\sum_{i=1}^{N}y_i(1-c_i)Amount_i + c_iC_a$$
- $y_i$ = kelas sebenarnya kasus $i$
- $c_i$ = kelas prediksi untuk kasus $i$

cost_model = function(predicted.classes, true.classes, amounts, fixedcost) {

    cost = sum(true.classes * (1 - predicted.classes) * amounts +
               predicted.classes * fixedcost)

    return(cost)
}

Biaya nyata deteksi fraud

## Total biaya tanpa SMOTE:
cost_model(predicted_class1, test$Class, test$Amount, fixedcost = 10)

10061.8

## Total biaya dengan SMOTE:
cost_model(predicted_class2, test$Class, test$Amount, fixedcost = 10)

7431.93

Kerugian turun 26%!

Ayo berlatih!

Deteksi Fraud di R