Punteggio di distanza k-nearest neighbors

Introduzione all'Anomaly Detection in R

Alastair Rushworth

Data Scientist

Dimensioni dei mobili

plot(Width ~ Height, data = furniture)

Introduzione all'Anomaly Detection in R

Distanza k-nearest neighbors (kNN)

Le anomalie sono di solito lontane dai loro vicini

Introduzione all'Anomaly Detection in R

Input per il calcolo della matrice delle distanze

library(FNN)
furniture_knn <- get.knn(data = furniture, k = 5)

 

Argomenti

  • data: matrice di dati
  • k: numero di vicini
Introduzione all'Anomaly Detection in R

Output: matrice delle distanze

get.knn() restituisce due matrici

names(furniture_knn)
"nn.index" "nn.dist" 

Matrice delle distanze

head(furniture_knn$nn.dist, 3)
         [,1]     [,2]     [,3]     [,4]     [,5]
[1,] 5.128300 5.367791 5.390801 5.740713 8.477025
[2,] 4.300093 5.367791 6.159139 7.091966 7.428176
[3,] 3.047502 3.545978 4.426266 5.006570 5.654202
Introduzione all'Anomaly Detection in R

Punteggio di distanza kNN

Distanza media dai vicini più prossimi

furniture_score <- rowMeans(furniture_knn$nn.dist)

 

Punteggio più alto?

which.max(furniture_score)
29
Introduzione all'Anomaly Detection in R

Passiamo alla pratica!

Introduzione all'Anomaly Detection in R

Preparing Video For Download...