Model klasterisasi dengan privasi diferensial

Privasi Data dan Anonimisasi di Python

Rebeca Gonzalez

Data engineer

Membandingkan model

Gambar menunjukkan 3 klaster pada data, setelah klasterisasi dengan k-means non-pribadi

Gambar menunjukkan 3 klaster pada data, setelah klasterisasi dengan k-means privat

Privasi Data dan Anonimisasi di Python

Membandingkan model

Gambar menunjukkan perbedaan antara dua hasil klasterisasi yang ditampilkan sebagai titik merah muda

  • Perbedaan antara klaster hasil dua model
  • Mayoritas hasilnya sama
Privasi Data dan Anonimisasi di Python

Membangun model klasterisasi berprivasi diferensial

from diffprivlib.models import KMeans

# Computing the clusters with the DP model model = KMeans(epsilon=1, n_clusters=3)
# Run the model and obtain clusters clusters = model.fit_predict(X)
Privasi Data dan Anonimisasi di Python

Meningkatkan model klasterisasi DP

  • Kita dapat pra-proses data sebelum klasterisasi.
  • Penskalaan fitur seperti StandardScaler dan reduksi dimensi seperti PCA.
    • Untuk menurunkan inersia model
    • Mendapatkan grup segmentasi yang lebih akurat
  • Dengan diffprivlib, lakukan seperti pada model sklearn.
Privasi Data dan Anonimisasi di Python

Meningkatkan model klasterisasi DP

from sklearn.decomposition import PCA

# Initialize PCA pca = PCA()
# Fit transform data with PCA X = pca.fit_transform(X)
# Computing the clusters with the DP model model = dp_Kmeans(epsilon=1, n_clusters=3)
# Run the model and obtain clusters clusters = model.fit_predict(X)
Privasi Data dan Anonimisasi di Python

Meningkatkan model klasterisasi DP

Gambar menampilkan dua scatter plot hasil dengan klaster

Privasi Data dan Anonimisasi di Python

Meningkatkan model klasterisasi DP

Gambar menunjukkan perbedaan antara dua hasil klasterisasi yang ditampilkan sebagai titik merah muda

  • Hasil membaik dengan transformasi data
Privasi Data dan Anonimisasi di Python

Metode siku

Gambar plot hasil setelah menerapkan metode siku pada data

Privasi Data dan Anonimisasi di Python

Epsilon

from diffprivlib.models import KMeans as model

# Computing the clusters with the DP model model = dp_Kmeans(epsilon=0.2, n_clusters=3)
# Run the model and obtain clusters clusters = model.fit_predict(X)
Privasi Data dan Anonimisasi di Python

Epsilon

Gambar menampilkan dua scatter plot hasil dengan klaster

Privasi Data dan Anonimisasi di Python

Ayo berlatih!

Privasi Data dan Anonimisasi di Python

Preparing Video For Download...