Pengantar privacy diferensial

Privasi Data dan Anonimisasi di Python

Rebeca Gonzalez

Instructor

Apa itu privacy diferensial (DP)?

Apakah Anda mengecat rambut?

$$ $$ Gambar tangan menunjuk salah satu dari dua tombol, memilih yang bertanda centang

Gambar wanita pirang

Privasi Data dan Anonimisasi di Python

Apa itu privacy diferensial (DP)?

Gambar koin

Privasi Data dan Anonimisasi di Python

Apa itu privacy diferensial (DP)?

Diagram koin menunjuk kata head pada salah satu cabang, di kiri

Privasi Data dan Anonimisasi di Python

Apa itu privacy diferensial (DP)?

Diagram koin menunjuk head pada cabang kiri. Lalu diikuti frasa "real answer"

Privasi Data dan Anonimisasi di Python

Apa itu privacy diferensial (DP)?

Diagram koin menunjuk sisi ekor di cabang kanan.

Privasi Data dan Anonimisasi di Python

Apa itu privacy diferensial (DP)?

Diagram koin menunjuk sisi ekor di cabang kanan. Diikuti opsi head dan tail

Privasi Data dan Anonimisasi di Python

Apa itu privacy diferensial (DP)?

Diagram koin menunjuk sisi ekor di cabang kanan. Diikuti opsi head dan tail. Head berujung "no" dan tail "yes"

Privasi Data dan Anonimisasi di Python

Apa itu privacy diferensial (DP)?

Privacy diferensial adalah definisi matematis tentang privasi.

Gambar wajah terbagi dua. Sisi kanan bertanda tanya

Privasi Data dan Anonimisasi di Python

Siapa yang memakai privacy diferensial (DP)?

Logo Apple

Privasi Data dan Anonimisasi di Python

Siapa yang memakai privacy diferensial (DP)?

Kata kunci emoji Apple

Logo Apple

Privasi Data dan Anonimisasi di Python

Privacy diferensial global

  • Kurator tepercaya melindungi data
  • Noise ditambahkan pada output

Diagram privacy diferensial global

Privasi Data dan Anonimisasi di Python

Privacy diferensial lokal

  • Tidak ada pihak tepercaya.
  • Tambahkan noise sebelum berbagi.

Diagram privacy diferensial lokal

Privasi Data dan Anonimisasi di Python

Privacy epsilon-differensial

Huruf Yunani epsilon $\epsilon$: Mengatur tingkat privasi dan banyaknya noise pada rilis data.

  • Nilai $\epsilon$ lebih tinggi memberi data lebih akurat dan kurang privat
  • Sistem $\epsilon$ rendah memberi data sangat acak
Privasi Data dan Anonimisasi di Python

Epsilon bersifat eksponensial

Contoh $\epsilon$ = 1.

$\epsilon^1=2.72$

  • Hampir tiga kali lebih privat dibanding $\epsilon$ = 2.
    • $\epsilon^2=7.39$
  • Dan lebih dari 8.000 kali lebih privat dibanding $\epsilon$ = 10.
    • $\epsilon^10=22000$
Privasi Data dan Anonimisasi di Python

K-anonymity dan privacy diferensial

k-anonymity memberi jaminan "sintaktik"

  • Masih banyak dipakai
  • Sering tidak cukup

Privacy diferensial adalah model privasi de facto saat ini

  • Diadopsi perusahaan: Apple, Uber, Google
  • Penurunan privasi dari rilis bisa diukur tepat
Privasi Data dan Anonimisasi di Python

Pengantar diffprivlib

diffprivlib v0.3 dari IBM

Logo IBM

Privasi Data dan Anonimisasi di Python

Histogram

# Get counts and bars for non-private histogram of salaries
counts, bins = np.histogram(salaries)


# Normalize counts to get proportions of the height proportions = counts / counts.sum()
# Draw the histogram of proportions plt.bar(bins[:-1], height=proportions, width=(bins[1] - bins[0])) plt.show()
Privasi Data dan Anonimisasi di Python

Histogram

Histogram non-privat yang dihasilkan

Privasi Data dan Anonimisasi di Python

Histogram privat

import diffprivlib.tools

# Get counts and bars for private histogram of salaries with epsilon of 0.1 dp_counts, dp_bins = tools.histogram(salaries, epsilon=0.1)
# Normalize counts to get proportions dp_proportions = dp_counts / dp_counts.sum()
# Draw the histogram of proportions and see differences plt.bar(dp_bins[:-1], dp_proportions, width=(dp_bins[1] - dp_bins[0])) plt.show()
Privasi Data dan Anonimisasi di Python

Histogram privat

Histogram non-privat Histogram non-privat yang dihasilkan

Histogram privat yang dihasilkan Histogram privat yang dihasilkan

Privasi Data dan Anonimisasi di Python

Ayo berlatih!

Privasi Data dan Anonimisasi di Python

Preparing Video For Download...