Sovracampionamento sintetico

Rilevamento delle frodi in R

Sebastiaan Höppner

PhD researcher in Data Science at KU Leuven

Sovracampionamento con "SMOTE"

SMOTE: Synthetic Minority Oversampling TEchnique (Chawla et al., 2002)
Sovracampiona la classe minoritaria (= frode) creando casi sintetici

dim(transfer_data)

1000    4

head(transfer_data)

  isFraud    amount   balance     ratio
1   false  528.6840 1529.4732 0.3456641
2   false  184.0193  836.3509 0.2200265
3   false 1885.8024 2984.0684 0.6319568
4   false  732.0286 1248.7217 0.5862224

prop.table(table(transfer_data$isFraud))

 false  true
  0.99  0.01

smote_scatterplot_1

smote_scatterplot_2

SMOTE

Selezioniamo un caso di frode X (Tim)

smote_zoomin

SMOTE - passo 1

Passo 1

Trova i K vicini fraudolenti più prossimi di X (Tim)

es. K = 4

smote_step1

SMOTE - passo 2

Passo 2

Scegli a caso uno dei vicini più prossimi di Tim es. X4 (Bart)

smote_step2

SMOTE - passo 3

Passo 3: crea un campione sintetico

caso_sintetico_1

SMOTE - passo 3

Passo 3: crea un campione sintetico

caso_sintetico_2

SMOTE - passo 3

Passo 3: crea un campione sintetico

caso_sintetico_3

SMOTE - passo 3

smote_step3

SMOTE - passo 4

Passo 4

Ripeti i passi 1-3 per ogni caso di frode dup_size volte

es. dup_size = 10

smote_step3

library(smotefamily)
smote_output = SMOTE(X = transfer_data[, -1],
                       target = transfer_data$isFraud,
                       K = 4,
                       dup_size = 10)

oversampled_data = smote_output$data

table(oversampled_data$isFraud)

false  true
  990   110

prop.table(table(oversampled_data$isFraud))

false  true
  0.9   0.1

risultato_smote

Ayo berlatih!

Rilevamento delle frodi in R