Deteksi Fraud di R
Tim Verdonck
Professor Data Science at KU Leuven
Outlier adalah observasi yang menyimpang dari pola mayoritas data.
Outlier bisa menjadi peringatan penipuan.
Alat populer untuk deteksi outlier adalah:
Z-score $z_i$ untuk observasi $x_i$ dihitung:
$$z_i=\frac{x_i-\hat{\mu}}{\hat{\sigma}} = \frac{x_i-\overline{x}}{s}$$
Dataset loginc berisi pendapatan bulanan 10 orang setelah transformasi log:
loginc: 7.876 7.681 7.628 ... 7.764 9.912 # <-- pendapatan terakhir jelas outlier!
Mean <- mean(loginc)
Sd <- sd(loginc)
zscore <- (loginc - Mean) / Sd
abs(zscore) > 3
FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE
Rata-rata sampel: $$\overline{x}=\frac{1}{n}\sum_i x_i$$
mean(loginc)mean(loginc9)
7.9864477.772392
loginc9 berisi observasi yang sama dengan loginc kecuali outlier.
Urutkan $n$ observasi dari kecil ke besar, lalu median sampel, $Med(X_n)$, adalah observasi ke-$(n+1)/2$ (jika $n$ ganjil) atau rata-rata observasi ke-$n/2$ dan ke-$(n/2+1)$ (jika $n$ genap).
median(loginc)
7.816658
median(loginc9)
7.764296
(1) Simpangan baku sampel: $$s= \sqrt{\frac{1}{n-1}\sum_i (x_i-\hat{\mu})^2}$$
sd(loginc)
0.6976615
sd(loginc9)
0.1791729
(2) Median absolute deviation: $$Mad(X_n)=1.4826Med(|x_i-Med(X_n)|)$$
(3) Rentang interkuartil (dinormalisasi): $$IQR(X_n)= IQR = 0.7413(Q_3-Q_1)$$ di mana $Q_1$ dan $Q_3$ adalah kuartil pertama dan ketiga
IQR(loginc)/1.349
0.2056784
mad(loginc)
0.2396159
mad(loginc9)
0.201305
IQR(loginc9)/1.349
0.1839295
Gunakan estimator robust untuk menghitung z-score robust:
$$z_i=\frac{x_i-\hat{\mu}}{\hat{\sigma}} =\frac{x_i-Med(X_n)}{Mad(X_n)}$$
robzscore <- (loginc - median(loginc)) / mad(loginc)abs(robzscore) > 3 ## Periksa outlier
FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE TRUE
robzscore[10] ## Z-score robust untuk outlier
8.748523

boxplot(los, col = "blue", ylab = "Lenght of Stay (LOS)")$out
59 33 42 67 35 47 102 36 27 31 27 30 29 32 37 27 38


Outlier menurut adjusted boxplot:
library(robustbase)
adjbox(los)$out
59 67 102
Statistik dari adjusted boxplot:
adjboxStats(los)$stats
2 4 8 13 47


Deteksi Fraud di R