Model klasterisasi dengan privasi diferensial

Privasi Data dan Anonimisasi di Python

Rebeca Gonzalez

Data engineer

Membandingkan model

Gambar menunjukkan 3 klaster pada data, setelah klasterisasi dengan k-means non-pribadi

Gambar menunjukkan 3 klaster pada data, setelah klasterisasi dengan k-means privat

Membandingkan model

Gambar menunjukkan perbedaan antara dua hasil klasterisasi yang ditampilkan sebagai titik merah muda

Perbedaan antara klaster hasil dua model
Mayoritas hasilnya sama

Membangun model klasterisasi berprivasi diferensial

from diffprivlib.models import KMeans


# Computing the clusters with the DP model
model = KMeans(epsilon=1, n_clusters=3)


# Run the model and obtain clusters
clusters = model.fit_predict(X)

Meningkatkan model klasterisasi DP

Kita dapat pra-proses data sebelum klasterisasi.
Penskalaan fitur seperti StandardScaler dan reduksi dimensi seperti PCA.
- Untuk menurunkan inersia model
- Mendapatkan grup segmentasi yang lebih akurat
Dengan diffprivlib, lakukan seperti pada model sklearn.

Meningkatkan model klasterisasi DP

from sklearn.decomposition import PCA


# Initialize PCA
pca = PCA()


# Fit transform data with PCA
X = pca.fit_transform(X)


# Computing the clusters with the DP model
model = dp_Kmeans(epsilon=1, n_clusters=3)


# Run the model and obtain clusters
clusters = model.fit_predict(X)

Meningkatkan model klasterisasi DP

Gambar menampilkan dua scatter plot hasil dengan klaster

Meningkatkan model klasterisasi DP

Gambar menunjukkan perbedaan antara dua hasil klasterisasi yang ditampilkan sebagai titik merah muda

Hasil membaik dengan transformasi data

Metode siku

Gambar plot hasil setelah menerapkan metode siku pada data

Epsilon

from diffprivlib.models import KMeans as model


# Computing the clusters with the DP model
model = dp_Kmeans(epsilon=0.2, n_clusters=3)


# Run the model and obtain clusters
clusters = model.fit_predict(X)

Epsilon

Gambar menampilkan dua scatter plot hasil dengan klaster

Ayo berlatih!

Privasi Data dan Anonimisasi di Python