Metode pendeteksian kecurangan berbasis klaster lainnya

Deteksi Kecurangan di Python

Charlotte Werger

Data Scientist

Ada banyak metode pengelompokan

Deteksi Kecurangan di Python

Cara menandai kecurangan: gunakan klaster terkecil

Deteksi Kecurangan di Python

Kenyataannya lebih seperti ini

Deteksi Kecurangan di Python

DBSCAN vs. K-means

  • Tidak perlu menentukan jumlah klaster
  • Atur jarak maksimum antar titik dalam klaster
  • Tetapkan jumlah sampel minimum per klaster
  • Lebih baik untuk data berbentuk tidak beraturan
  • Namun biayanya komputasinya lebih tinggi
Deteksi Kecurangan di Python

Menerapkan DBSCAN

from sklearn.cluster import DBSCAN
db = DBSCAN(eps=0.5, min_samples=10, n_jobs=-1).fit(X_scaled)

# Get the cluster labels (aka numbers) pred_labels = db.labels_
# Count the total number of clusters n_clusters_ = len(set(pred_labels)) - (1 if -1 in pred_labels else 0) # Print model results print('Estimated number of clusters: %d' % n_clusters_)
Estimated number of clusters: 31
Deteksi Kecurangan di Python

Memeriksa ukuran klaster

# Print model results
print("Silhouette Coefficient: %0.3f" % metrics.silhouette_score(X_scaled, pred_labels))
Silhouette Coefficient: 0.359
# Get sample counts in each cluster 
counts = np.bincount(pred_labels[pred_labels>=0])
print (counts)
[ 763  496  840  355 1086  676   63  306  560  134   28   18  262  128  332  22  
   22   13   31   38   36   28   14   12   30   10   11   10   21   10    5]
Deteksi Kecurangan di Python

Ayo berlatih!

Deteksi Kecurangan di Python

Preparing Video For Download...