Rilevamento delle frodi in R
Tim Verdonck
Professor Data Science at KU Leuven
Un outlier è un’osservazione che devia dal modello della maggior parte dei dati.
Un outlier può segnalare frodi.
Uno strumento comune per trovare outlier è
Lo z-score $z_i$ per l’osservazione $x_i$ si calcola così:
$$z_i=\frac{x_i-\hat{\mu}}{\hat{\sigma}} = \frac{x_i-\overline{x}}{s}$$
Il dataset loginc contiene i redditi mensili di 10 persone dopo trasformazione log:
loginc: 7.876 7.681 7.628 ... 7.764 9.912 # <-- l’ultimo reddito è chiaramente un outlier!
Mean <- mean(loginc)
Sd <- sd(loginc)
zscore <- (loginc - Mean) / Sd
abs(zscore) > 3
FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE
Media campionaria: $$\overline{x}=\frac{1}{n}\sum_i x_i$$
mean(loginc)mean(loginc9)
7.9864477.772392
loginc9 contiene le stesse osservazioni di loginc tranne l’outlier.
Ordina $n$ osservazioni dalla più piccola alla più grande, poi la mediana campionaria, $Med(X_n)$, è la $(n+1)/2$-esima (se $n$ è dispari) o la media tra la $n/2$-esima e la $(n/2+1)$-esima (se $n$ è pari).
median(loginc)
7.816658
median(loginc9)
7.764296
(1) Deviazione standard campionaria: $$s= \sqrt{\frac{1}{n-1}\sum_i (x_i-\hat{\mu})^2}$$
sd(loginc)
0.6976615
sd(loginc9)
0.1791729
(2) Deviazione assoluta mediana (MAD): $$Mad(X_n)=1.4826Med(|x_i-Med(X_n)|)$$
(3) Intervallo interquartile (normalizzato): $$IQR(X_n)= IQR = 0.7413(Q_3-Q_1)$$ dove $Q_1$ e $Q_3$ sono il primo e terzo quartile
IQR(loginc)/1.349
0.2056784
mad(loginc)
0.2396159
mad(loginc9)
0.201305
IQR(loginc9)/1.349
0.1839295
Sostituisci con stimatori robusti per calcolare gli z-score robusti:
$$z_i=\frac{x_i-\hat{\mu}}{\hat{\sigma}} =\frac{x_i-Med(X_n)}{Mad(X_n)}$$
robzscore <- (loginc - median(loginc)) / mad(loginc)abs(robzscore) > 3 ## Check for outliers
FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE TRUE
robzscore[10] ## Robust z-score of the outlier
8.748523

boxplot(los, col = "blue", ylab = "Lenght of Stay (LOS)")$out
59 33 42 67 35 47 102 36 27 31 27 30 29 32 37 27 38


Outlier secondo il boxplot aggiustato:
library(robustbase)
adjbox(los)$out
59 67 102
Statistiche calcolate dal boxplot aggiustato:
adjboxStats(los)$stats
2 4 8 13 47


Rilevamento delle frodi in R