Fitur waktu

Deteksi Fraud di R

Bart Baesens

Professor Data Science at KU Leuven

Menganalisis waktu

  • Peristiwa tertentu cenderung terjadi pada waktu yang mirip
  • Contoh: pelanggan bertransaksi pada jam yang serupa
  • Tujuan: menangkap aspek waktu dengan fitur yang bermakna
  • Mengolah waktu bisa rumit
    • 00:00 = 24:00
    • Tidak ada urutan alami, misalnya 23:00 $<$ atau $>$ 01:00?
Deteksi Fraud di R
  • Jangan gunakan mean aritmetika untuk rata-rata timestamp!
    • Contoh: transaksi pada 01:00, 02:00, 21:00, 22:00
    • mean aritmetika 11:30, padahal tidak ada transfer dekat jam itu!
head(timestamps)
"20:27:28" "21:08:41" "01:30:16" "00:57:04" "23:12:14" "22:54:16"
  • Ubah timestamp digital ke desimal (jam)
library(lubridate)
ts <- as.numeric(hms(timestamps)) / 3600

head(ts)
20.4577778 21.1447222  1.5044444  0.9511111 23.2038889 22.9044444
Deteksi Fraud di R

Histogram sirkular

library(ggplot2)

clock <- ggplot(data.frame(ts), aes(x = ts)) +
    geom_histogram(breaks = seq(0, 24), colour = "blue", fill = "lightblue") +
    coord_polar()


arithmetic_mean <- mean(ts) clock + geom_vline(xintercept = arithmetic_mean, linetype = 2, color = "red", size = 2)
Deteksi Fraud di R

Histogram sirkular dengan mean aritmetika

jam_salah

Deteksi Fraud di R

Distribusi probabilitas von Mises

  • Modelkan waktu sebagai variabel periodik dengan distribusi von Mises (Correa Bahnsen dkk., 2016)
  • Normal periodik = distribusi normal yang dililitkan pada lingkaran
  • Distribusi von Mises untuk himpunan timestamp $D= $ {$t_1, t_2, \ldots, t_n$}

$$D\sim vonMises\left(\mu,\kappa\right)$$

  • $\mu$ : mean periodik, ukuran lokasi; distribusi terpusat di sekitar $\mu$
  • $1/\kappa$ : varians periodik; $\kappa$ mengukur konsentrasi
Deteksi Fraud di R

Estimasi parameter $\mu$ dan $\kappa$

# Convert the decimal timestamps to class "circular"
library(circular)
ts <- circular(ts, units = "hours", template = "clock24")

head(ts)
Circular Data: 
[1] 20.457889 21.144607  1.504422  0.950982 23.203917  4.904397
estimates <- mle.vonmises(ts)
p_mean <- estimates$mu %% 24
concentration <- estimates$kappa
Deteksi Fraud di R

Histogram sirkular dengan mean periodik

jam_benar

Deteksi Fraud di R

Interval kepercayaan

  • Ekstrak fitur baru: interval kepercayaan untuk waktu transaksi
  • $S= $ {$x_i^{time}|i=1,\ldots,n$} : himpunan transaksi oleh pelanggan yang sama

(1) Estimasi $\mu(S)$ dan $\kappa(S)$ berdasarkan $S$ dengan mle.vonmises():

estimates <- mle.vonmises(ts)
p_mean <- estimates$mu %% 24
concentration <- estimates$kappa

(2) Hitung densitas (= likelihood) timestamp dengan dvonmises():

densities <- dvonmises(ts, mu = p_mean, kappa = concentration)
Deteksi Fraud di R

Ekstraksi fitur

  • Fitur biner: timestamp transaksi baru berada di dalam interval kepercayaan (CI) dengan probabilitas $\alpha$ (mis. 0,90; 0,95) atau tidak
  • Fitur waktu biner TRUE jika timestamp di dalam CI, FALSE jika di luar
  • Timestamp berada dalam CI 90% jika densitasnya lebih besar dari nilai ambang:
alpha <- 0.90
quantile <- qvonmises(p = (1 - alpha)/2, 
                        mu = p_mean,
                        kappa = concentration) %% 24
cutoff <- dvonmises(quantile,
                      mu = p_mean, kappa = concentration)

time_feature <- densities >= cutoff
Deteksi Fraud di R

Interval kepercayaan

jam_kepercayaan

Deteksi Fraud di R

Interval kepercayaan

jam_kepercayaan_2

Deteksi Fraud di R

Contoh

$$ $$ tabel_waktu

Deteksi Fraud di R

Interval kepercayaan dengan jendela waktu bergerak

## ts contains the timestamps 18.42, 20.45, 20.88, 0.75, 19.20, 23.65 and 6.08

time_feature = c(NA, NA) for (i in 3:length(ts)) { ts_history <- ts[1:(i-1)] ## (1) Previous timestamps
estimates <- mle.vonmises(ts_history) ## (2) Estimate mu and kappa on historic timestamps p_mean <- estimates$mu %% 24 concentration <- estimates$kappa
dens_i <- dvonmises(ts[i], mu = p_mean, kappa = concentration) ## (3) Estimate density of current timestamp
alpha <- 0.90 ## (4) Check if density is larger than cutoff with confidence level 90% quantile <- qvonmises((1-alpha)/2, mu=p_mean, kappa=concentration) %% 24 cutoff <- dvonmises(quantile, mu = p_mean, kappa = concentration) time_feature[i] <- dens_i >= cutoff }
print(time_feature)
NA    NA  TRUE FALSE  TRUE  TRUE FALSE
Deteksi Fraud di R

Ayo berlatih!

Deteksi Fraud di R

Preparing Video For Download...