Wat is privé en waarom is dat belangrijk?

Dataprivacy en anonimisering in Python

Rebeca Gonzalez

Data engineer

Facebook- en Cambridge Analytica-schandaal

Impact van gegevensprivacy

  • Ongeautoriseerde toegang tot gegevens van 87 miljoen mensen
  • Psychologische profielen van Amerikaanse kiezers bouwen
  • Hen beïnvloeden tijdens campagnes

Mark Zuckerberg in de rechtszaal na schending van privacyregels

Dataprivacy en anonimisering in Python

Wat is privacy?

Mensen die over straat lopen

Dataprivacy en anonimisering in Python

Informatiedoorstroom en privacy

Gezichtsherkenning op het gezicht van een vrouw op straat, met een GPS-icoon boven haar hoofd

Dataprivacy en anonimisering in Python

Informatiedoorstroom en privacy

  • Hoe jouw persoonlijke info stroomt

 

"De mogelijkheid om informatiestromen te waarborgen die voldoen aan sociale en juridische normen."

Gezichtsherkenning op het gezicht van een vrouw op straat, met een GPS-icoon boven haar hoofd

Dataprivacy en anonimisering in Python

Persoonlijk identificeerbare informatie (PII)

Gegevens die, alleen of gecombineerd met andere relevante data, iemand kunnen identificeren.

Papieren formulier met ruimte voor persoonlijke gegevens en een pen

Dataprivacy en anonimisering in Python

Gevoelige PII

  • Duidelijk over een persoon
  • Blootstelling kan schade, schaamte of hinder geven

Tekening van een man met pop-ups eromheen met ogenschijnlijk persoonlijke info

Dataprivacy en anonimisering in Python

Gevoelige PII

  • Volledige naam
  • Burgerservicenummer (BSN)
  • Financiële gegevens
  • Medische dossiers

GDPR-afbeelding met maximale boetes bij niet-naleving

Dataprivacy en anonimisering in Python

Niet-gevoelige PII

Gegevens die op zichzelf iemand niet kunnen traceren

  • Geslacht
  • Beroep
  • Postcode
  • Geboorteplaats
Dataprivacy en anonimisering in Python

Niet-gevoelige PII

Gegevens die op zichzelf iemand niet kunnen traceren, zoals geslacht, beroep, postcode of geboorteplaats.

  • Geslacht
  • Beroep
  • Postcode
  • Geboorteplaats
Nog steeds te koppelen met andere info om iemand te identificeren!

Tekst "Regeringsleider in Europa" met een geboortedatum en lijnen naar Angela Merkels gezicht

1 Foto van Angela Merkel via Wikimedia Commons.
Dataprivacy en anonimisering in Python

AVG: Algemene Verordening Gegevensbescherming (EU)

Beschermt PII van mensen die in Europa wonen of wier data daar wordt verwerkt.

Kernprincipes van de AVG

  1. Rechtmatigheid, behoorlijkheid en transparantie
  2. Doelbinding
  3. Dataminimalisatie
  4. Nauwkeurigheid
  5. Bewaarbeperking

Meer info hier

GDPR-afbeelding met maximale boetes bij niet-naleving

Dataprivacy en anonimisering in Python

Datasuppressie

Selectieve informatie verwijderen om de privacy te beschermen.

Attribuutsuppressie
  • Kolommen volledig verwijderen
Cel-/recordsuppressie
  • Data in rijen of cellen verwijderen of vervangen
Dataprivacy en anonimisering in Python

Attribuutsuppressie op een dataset

# Attribute suppression on Sensitive PII "name"
suppressed_salaries = salaries.drop('name', axis="columns")


# Explore obtained dataset suppressed_salaries.head()
     gender    status    salary     pay_basis    position_title
0    Male    Employee    64400.0    Per Annum    DEPUTY DIRECTOR
1    Male    Employee    43600.0    Per Annum    ASSOCIATE DIRECTOR
2    Male    Employee    120000.0   Per Annum    SPECIAL ASSISTANT TO THE PRESIDENT AND DEPUTY ...
3    Male    Employee    86200.0    Per Annum    LEAD ADVANCE REPRESENTATIVE
4    Male    Employee    106000.0   Per Annum    SPECIAL ASSISTANT TO THE PRESIDENT AND DIRECTO...
Dataprivacy en anonimisering in Python

Recordsuppressie op een dataset

# Explore the DataFrame
salaries.head()
      hours    performance    salary 
0     72       51             $80,500.00 
1     20       99             $2,805,000.00 
3     75       62             $75,800.00 
4     74       58             $60,000.00 
5     70       54             $79,000.00 
Dataprivacy en anonimisering in Python

Recordsuppressie op een dataset

# Drop rows with salaries higher than 2,000,000
salaries = salaries.drop(salaries[salaries.Salary > 2000000].index)

# See reasulting DataFrame
salaries.head()
      hours    performance    salary 
0     72       51             80500 
2     75       62             75800 
3     74       58             60000 
4     70       54             79000 
5     68       53             62000 
Dataprivacy en anonimisering in Python

Suppressie- en koppelingsaanvallen

Afbeelding met twee tabellen: links medische data na attribuutsuppressie, rechts kiezersregistratie met deels dezelfde data

Dataprivacy en anonimisering in Python

Laten we oefenen!

Dataprivacy en anonimisering in Python

Preparing Video For Download...