Privacybudgetten

Dataprivacy en anonimisering in Python

Rebeca Gonzalez

Instructor

Definitie van differentiële privacy

  • Cynthia Dwork geeft een wiskundige definitie van differentiële privacy.

Diagram dat laat zien dat de output van een differentieel privé-mechanisme vrijwel gelijk is, of iemand nu in de dataset zit of niet

  • Epsilon en nauwkeurigheid zijn het belangrijkst.
Dataprivacy en anonimisering in Python

$\epsilon$ de privacyparameter

  • Maatstaf voor privacylek
  • Hoe kleiner, hoe beter de privacybescherming
Dataprivacy en anonimisering in Python

Privacybudget

Tekening van een databeheerder links

Dataprivacy en anonimisering in Python

Privacybudget

Tekening van een databeheerder links en een derde persoon. Een pijl wijst naar de databeheerder met epsilon 1 erboven, wat een query naar de database voorstelt

Dataprivacy en anonimisering in Python

Privacybudget

Tekening van een databeheerder links en een derde persoon. Nog een pijl wijst naar de databeheerder met epsilon 1 erboven, wat nog een query voorstelt Twee keer dezelfde privéquery met $\epsilon$ = 1 doen is gelijk aan één query met privacy $\epsilon$ = 2

Dataprivacy en anonimisering in Python

Privacybudget

Tekening van de derde partij die berekeningen uitvoert op de eerder opgevraagde data Derden kunnen antwoorden middelen en zo de ruis wegfilteren.

Dataprivacy en anonimisering in Python

Privacybudget

  • Limiet op het privacylek dat een persoon of groep mag oplopen
  • Houd de queries naar de data bij

Diagram van een team dat data ophaalt uit een database die ruis toevoegt vóór het beantwoorden

Dataprivacy en anonimisering in Python

Wat is privé genoeg?

  • Kwaliteit hangt af van de query én de data
  • Epsilon kan sterk variëren
Dataprivacy en anonimisering in Python

Wat is privé genoeg?

Epsilon $\epsilon$

  • Waarden tussen 0 en 1 zijn erg goed
  • Waarden boven 10 zijn niet goed
  • Waarden tussen 1 en 10 zijn “beter dan niets”

Onthoud: epsilon werkt exponentieel.

  • Een systeem met $\epsilon$ = 1 is >8.000× zo privé als $\epsilon$ = 10.
Dataprivacy en anonimisering in Python

Wat is privé genoeg?

Afbeelding met een staafdiagram van emoji-gebruik naast Apple’s logo

1 Screenshot van de populairste emoji’s voor Engelstalige VS-gebruikers volgens door Apple verzamelde data.
Dataprivacy en anonimisering in Python

Privacybudget: bijhouden

from diffprivlib import BudgetAccountant

acc = BudgetAccountant(epsilon=5) acc
BudgetAccountant(epsilon=5)
Dataprivacy en anonimisering in Python

Privacybudget: bijhouden

# Bereken een privé gemiddelde van salarissen met epsilon = 0.5
# Gebruik de Budget Accountant acc en stel bounds in van 0 tot 230000
dp_mean = tools.mean(salaries, epsilon=0.5, accountant=acc, bounds=(0, 230000))

# Print het resulterende privé gemiddelde print("Private mean: ", dp_mean)
Private mean: 82524.72611901595
Dataprivacy en anonimisering in Python

Privacybudget: bijhouden

# Totale verbruikte privacy 
print("Total spent: ", acc.total())

# Resterend privacybudget print("Remaining budget: ", acc.remaining())
# Totaal aantal queries tot nu toe print("Number of queries recorded: ", len(acc))
Total spent: (epsilon=0.5, delta=0.0)

Remaining budget: (epsilon=4.5, delta=1.0)
Number of queries recorded: 1
Dataprivacy en anonimisering in Python

Privacybudget: bijhouden

# Resterend privacybudget voor 2 queries
print("Remaining budget for 2 queries: ", acc.remaining(2))
Remaining budget for 2 queries: (epsilon=2.25, delta=1.0)
Dataprivacy en anonimisering in Python

Laten we oefenen!

Dataprivacy en anonimisering in Python

Preparing Video For Download...