Rilevamento delle frodi in R
Sebastiaan Höppner
PhD researcher in Data Science at KU Leuven
dim(transfer_data)
1000 4
head(transfer_data)
isFraud amount balance ratio
1 false 528.6840 1529.4732 0.3456641
2 false 184.0193 836.3509 0.2200265
3 false 1885.8024 2984.0684 0.6319568
4 false 732.0286 1248.7217 0.5862224
prop.table(table(transfer_data$isFraud))
false true
0.99 0.01


Selezioniamo un caso di frode X (Tim)

Passo 1
Trova i K vicini fraudolenti
più prossimi di X (Tim)
es. K = 4

Passo 2
Scegli a caso uno dei vicini più prossimi di Tim es. X4 (Bart)

Passo 3: crea un campione sintetico

Passo 3: crea un campione sintetico

Passo 3: crea un campione sintetico


Passo 4
Ripeti i passi 1-3 per ogni caso di frode
dup_size volte
es. dup_size = 10

library(smotefamily) smote_output = SMOTE(X = transfer_data[, -1], target = transfer_data$isFraud, K = 4, dup_size = 10)oversampled_data = smote_output$datatable(oversampled_data$isFraud)
false true
990 110
prop.table(table(oversampled_data$isFraud))
false true
0.9 0.1

Rilevamento delle frodi in R