Farklı gizlilikli kümeleme modelleri

Python ile Veri Gizliliği ve Anonimleştirme

Rebeca Gonzalez

Data engineer

Modelleri karşılaştırma

Gizli olmayan k-ortalamalar ile kümeleme sonrası veride 3 küme

Gizlilikli k-ortalamalar ile kümeleme sonrası veride 3 küme

Python ile Veri Gizliliği ve Anonimleştirme

Modelleri karşılaştırma

Pembe noktalarla gösterilen iki kümeleme sonucu arasındaki fark

  • Modellerin küme sonuçları arasındaki fark
  • Sonuçların çoğu ortaktır
Python ile Veri Gizliliği ve Anonimleştirme

Farklı gizlilikli kümeleme modelleri oluşturma

from diffprivlib.models import KMeans

# DP model ile kümeleri hesapla model = KMeans(epsilon=1, n_clusters=3)
# Modeli çalıştır ve kümeleri al clusters = model.fit_predict(X)
Python ile Veri Gizliliği ve Anonimleştirme

DP kümeleme modellerini iyileştirme

  • Kümeleme öncesi veriyi ön işleyebiliriz.
  • StandardScaler gibi ölçekleme ve PCA gibi boyut indirgeme yöntemleri.
    • Model ataletini azaltır
    • Daha doğru segmentler elde edilir
  • diffprivlib ile bunu, sklearn modellerinde olduğu gibi yaparız.
Python ile Veri Gizliliği ve Anonimleştirme

DP kümeleme modellerini iyileştirme

from sklearn.decomposition import PCA

# PCA'yı başlat pca = PCA()
# Veriyi PCA ile uydur ve dönüştür X = pca.fit_transform(X)
# DP model ile kümeleri hesapla model = dp_Kmeans(epsilon=1, n_clusters=3)
# Modeli çalıştır ve kümeleri al clusters = model.fit_predict(X)
Python ile Veri Gizliliği ve Anonimleştirme

DP kümeleme modellerini iyileştirme

Kümeleri gösteren iki saçılım grafiği

Python ile Veri Gizliliği ve Anonimleştirme

DP kümeleme modellerini iyileştirme

Pembe noktalarla gösterilen iki kümeleme sonucu arasındaki fark

  • Veri dönüşümleriyle sonuçlar iyileşti
Python ile Veri Gizliliği ve Anonimleştirme

Dirsek yöntemi

Veriye dirsek yöntemi uygulanınca oluşan grafiğin görüntüsü

Python ile Veri Gizliliği ve Anonimleştirme

Epsilon

from diffprivlib.models import KMeans as model

# DP model ile kümeleri hesapla model = dp_Kmeans(epsilon=0.2, n_clusters=3)
# Modeli çalıştır ve kümeleri al clusters = model.fit_predict(X)
Python ile Veri Gizliliği ve Anonimleştirme

Epsilon

Kümeleri gösteren iki saçılım grafiği

Python ile Veri Gizliliği ve Anonimleştirme

Hadi pratik yapalım!

Python ile Veri Gizliliği ve Anonimleştirme

Preparing Video For Download...