Altri metodi di clustering per rilevare frodi

Rilevamento delle frodi in Python

Charlotte Werger

Data Scientist

Esistono molti metodi di clustering

Rilevamento delle frodi in Python

E vari modi per segnalare frodi: usare i cluster più piccoli

Rilevamento delle frodi in Python

In pratica appare più così

Rilevamento delle frodi in Python

DBSCAN vs K-means

  • Non serve predefinire il numero di cluster
  • Regola la distanza massima tra punti nel cluster
  • Imposta il minimo di campioni per cluster
  • Meglio con forme irregolari
  • Però ha costi computazionali maggiori
Rilevamento delle frodi in Python

Implementare DBSCAN

from sklearn.cluster import DBSCAN
db = DBSCAN(eps=0.5, min_samples=10, n_jobs=-1).fit(X_scaled)

# Get the cluster labels (aka numbers) pred_labels = db.labels_
# Count the total number of clusters n_clusters_ = len(set(pred_labels)) - (1 if -1 in pred_labels else 0) # Print model results print('Estimated number of clusters: %d' % n_clusters_)
Estimated number of clusters: 31
Rilevamento delle frodi in Python

Controllare la dimensione dei cluster

# Print model results
print("Silhouette Coefficient: %0.3f" % metrics.silhouette_score(X_scaled, pred_labels))
Silhouette Coefficient: 0.359
# Get sample counts in each cluster 
counts = np.bincount(pred_labels[pred_labels>=0])
print (counts)
[ 763  496  840  355 1086  676   63  306  560  134   28   18  262  128  332  22  
   22   13   31   38   36   28   14   12   30   10   11   10   21   10    5]
Rilevamento delle frodi in Python

Passiamo alla pratica !

Rilevamento delle frodi in Python

Preparing Video For Download...