Lavorare con variabili categoriche

Introduzione all'Anomaly Detection in R

Alastair Rushworth

Data Scientist

Verificare le classi delle colonne

Classe di una singola colonna

class(sat$V1)
"numeric"

Classe di tutte le colonne

sapply(X = sat, FUN = class)
      label          V1          V2          V3         V4          V5          V6    high_low
  "numeric"   "numeric"   "numeric"   "numeric"  "numeric"   "numeric"   "numeric" "character"
Introduzione all'Anomaly Detection in R

Isolation forest

Codifica le variabili categoriche come factor

sat$high_low <- as.factor(sat$high_low)

class(sat$high_low)
"factor"

Allena l'isolation forest

sat_for <- iForest(sat[, -1], nt = 100)
Introduzione all'Anomaly Detection in R

LOF con factor

La distanza di Gower misura la distanza tra punti con variabili categoriche e numeriche

 

library(cluster)
sat_dist <- daisy(sat[, -1], metric = "gower")

Passa sat_dist a lof

sat_lof <- lof(sat_dist, k = 10)

Introduzione all'Anomaly Detection in R

Esplorare la matrice di distanza di Gower

  • Converti l'oggetto in matrice
sat_distmat <- as.matrix(sat_dist)

 

  • Trova distanza massima e minima tra punti
range(sat_distmat)
0.0000000 0.8680774
Introduzione all'Anomaly Detection in R

Let's practice!

Introduzione all'Anomaly Detection in R

Preparing Video For Download...