Deteksi Fraud di R
Tim Verdonck
Professor Data Science at KU Leuven
Animals di paket MASS berisi rata-rata berat otak dan tubuh untuk 28 hewan library(MASS)
data("Animals")
body brain
Mountain beaver 1.35 8.1
Cow 465.00 423.0
Grey wolf 36.33 119.5
Goat 27.66 115.0
X <- data.frame(log_body = log(Animals$body), log_brain = log(Animals$brain))
Boxplot logaritma berat tubuh dan berat otak


Jarak Mahalanobis (atau terumumkan) untuk suatu observasi adalah jarak dari observasi ke pusat, dengan mempertimbangkan matriks kovarians

Jarak Mahalanobis klasik: rata-rata sampel sebagai estimasi lokasi dan matriks kovarians sampel sebagai estimasi sebaran
Untuk mendeteksi pencilan multivariat, jarak Mahalanobis dibandingkan dengan nilai batas yang diturunkan dari distribusi khi-kuadrat
Dalam dua dimensi kita dapat membentuk elipsoid toleransi $97.5\%$, didefinisikan oleh observasi dengan jarak Mahalanobis tidak melebihi nilai batas
animals.clcenter <- colMeans(X) animals.clcov <- cov(X) rad <- sqrt(qchisq(0.975, df = ncol(X)))library(car) ellipse.cl <- data.frame(ellipse(center = animals.clcenter, shape = animals.clcov,radius = rad, segments = 100, draw = FALSE)) colnames(ellipse.cl) <- colnames(X)fig <- fig + geom_polygon(data=ellipse.cl, color = "dodgerblue", fill = "dodgerblue", alpha = 0.2) + geom_point(aes(x = animals.clcenter[1], y = animals.clcenter[2]), color = "blue", size = 6)

Estimator Minimum Covariance Determinant (MCD) oleh Rousseeuw adalah estimator robust populer untuk lokasi dan sebaran multivariat
Estimasi robust lokasi dan sebaran dengan MCD
library(robustbase)
animals.mcd <- covMcd(X)
# Estimasi robust lokasi
animals.mcd$center
# Estimasi robust sebaran
animals.mcd$cov
Dengan memasukkan estimasi robust lokasi dan sebaran ini ke definisi jarak Mahalanobis, kita memperoleh jarak robust dan dapat membuat elipsoid toleransi robust.
library(robustbase) animals.mcd <- covMcd(X) ellipse.mcd <- data.frame(ellipse(center = animals.mcd$center, shape = animals.mcd$cov, radius = rad, segments = 100, draw = FALSE)) colnames(ellipse.mcd) <- colnames(X)fig2 <- fig + geom_polygon(data = ellipse.mcd, color = "red", fill = "red", alpha = 0.3) + geom_point(aes(x = animals.mcd$center[1], y = animals.mcd$center[2]), color = "red", size = 6)

MCDplot(animals.mcd, which = "dd")


Deteksi Fraud di R