Rilevamento delle frodi in R
Tim Verdonck
Professor Data Science at KU Leuven
Animals del pacchetto MASS contiene pesi medi di cervello e corpo per 28 animali library(MASS)
data("Animals")
body brain
Mountain beaver 1.35 8.1
Cow 465.00 423.0
Grey wolf 36.33 119.5
Goat 27.66 115.0
X <- data.frame(log_body = log(Animals$body), log_brain = log(Animals$brain))
Boxplot dei log di peso corporeo e cerebrale


La distanza di Mahalanobis (o generalizzata) per un’osservazione è la distanza dal centro, tenendo conto della matrice di covarianza

Distanze classiche di Mahalanobis: media campionaria per la posizione e matrice di covarianza campionaria per la dispersione
Per rilevare outlier multivariati, si confronta la distanza di Mahalanobis con una soglia derivata dalla distribuzione chi-quadro
In due dimensioni si può costruire il $97.5\%$ ellissoide di tolleranza, definito dalle osservazioni la cui distanza di Mahalanobis non supera la soglia
animals.clcenter <- colMeans(X) animals.clcov <- cov(X) rad <- sqrt(qchisq(0.975, df = ncol(X)))library(car) ellipse.cl <- data.frame(ellipse(center = animals.clcenter, shape = animals.clcov,radius = rad, segments = 100, draw = FALSE)) colnames(ellipse.cl) <- colnames(X)fig <- fig + geom_polygon(data=ellipse.cl, color = "dodgerblue", fill = "dodgerblue", alpha = 0.2) + geom_point(aes(x = animals.clcenter[1], y = animals.clcenter[2]), color = "blue", size = 6)

L’estimatore Minimum Covariance Determinant (MCD) di Rousseeuw è un metodo robusto per posizione e dispersione multivariata
Stime robuste di posizione e dispersione con MCD
library(robustbase)
animals.mcd <- covMcd(X)
# Robust estimate of location
animals.mcd$center
# Robust estimate of scatter
animals.mcd$cov
Inserendo queste stime robuste di posizione e dispersione nella definizione della distanza di Mahalanobis, otteniamo distanze robuste e possiamo creare un ellissoide di tolleranza robusto.
library(robustbase) animals.mcd <- covMcd(X) ellipse.mcd <- data.frame(ellipse(center = animals.mcd$center, shape = animals.mcd$cov, radius = rad, segments = 100, draw = FALSE)) colnames(ellipse.mcd) <- colnames(X)fig2 <- fig + geom_polygon(data = ellipse.mcd, color = "red", fill = "red", alpha = 0.3) + geom_point(aes(x = animals.mcd$center[1], y = animals.mcd$center[2]), color = "red", size = 6)

MCDplot(animals.mcd, which = "dd")


Rilevamento delle frodi in R