Cosa è privato e perché ci importa?

Riservatezza dei dati e anonimizzazione in Python

Rebeca Gonzalez

Data engineer

Scandalo Facebook e Cambridge Analytica

Impatto della privacy dei dati

  • Accesso non autorizzato ai dati di 87 milioni di persone
  • Profilazione psicologica degli elettori USA
  • Persuaderli durante le campagne politiche

Mark Zuckerberg in tribunale per le conseguenze della violazione della privacy dei dati

Riservatezza dei dati e anonimizzazione in Python

Cos’è la privacy?

Persone che camminano per strada

Riservatezza dei dati e anonimizzazione in Python

Flusso di informazioni e privacy

Sistema di riconoscimento facciale applicato al volto di una donna in strada, con anche un’icona GPS sopra la testa

Riservatezza dei dati e anonimizzazione in Python

Flusso di informazioni e privacy

  • Come fluiscono i tuoi dati personali

 

"La capacità di garantire flussi di informazioni conformi alle norme sociali e legali."

Sistema di riconoscimento facciale applicato al volto di una donna in strada, con anche un’icona GPS sopra la testa

Riservatezza dei dati e anonimizzazione in Python

Dati personali identificabili (PII)

Dati che, da soli o con altri dati rilevanti, possono identificare qualcuno.

Modulo cartaceo con spazi per dati personali e una penna

Riservatezza dei dati e anonimizzazione in Python

PII sensibili

  • Chiaramente riferiti a una persona
  • L’esposizione può causare danni, imbarazzo o disagi

Disegno di un uomo con popup intorno con informazioni personali

Riservatezza dei dati e anonimizzazione in Python

PII sensibili

  • Nome completo
  • Social Security Number (SSN)
  • Informazioni finanziarie
  • Cartelle cliniche

Immagine GDPR con le sanzioni massime per chi non rispetta il regolamento

Riservatezza dei dati e anonimizzazione in Python

PII non sensibili

Dati che non permettono di rintracciare una persona se usati da soli

  • Genere
  • Occupazione
  • CAP
  • Città di nascita
Riservatezza dei dati e anonimizzazione in Python

PII non sensibili

Dati che, da soli, non permettono di rintracciare una persona, come genere, occupazione, CAP o città di nascita.

  • Genere
  • Occupazione
  • CAP
  • Città di nascita
Possono comunque identificare qualcuno se combinati con altri dati!

Testo "Capo di governo in Europa" e una data di nascita, con linee che puntano al volto di Angela Merkel

1 Foto di Angela Merkel da Wikimedia Commons.
Riservatezza dei dati e anonimizzazione in Python

GDPR: Regolamento UE sulla protezione dei dati

Protegge i PII di chi vive in Europa o i cui dati sono trattati in Europa.

Principi chiave del GDPR

  1. Liceità, correttezza e trasparenza
  2. Limitazione delle finalità
  3. Minimizzazione dei dati
  4. Esattezza
  5. Limitazione della conservazione

Scopri di più qui

Immagine GDPR con le sanzioni massime per chi non rispetta il regolamento

Riservatezza dei dati e anonimizzazione in Python

Soppressione dei dati

Rimozione di informazioni selezionate per proteggere la privacy dei soggetti.

Soppressione di attributi
  • Rimozione di intere colonne
Soppressione di celle/record
  • Rimozione o sostituzione di dati in righe o celle
Riservatezza dei dati e anonimizzazione in Python

Soppressione di attributi su un dataset

# Attribute suppression on Sensitive PII "name"
suppressed_salaries = salaries.drop('name', axis="columns")


# Explore obtained dataset suppressed_salaries.head()
     gender    status    salary     pay_basis    position_title
0    Male    Employee    64400.0    Per Annum    DEPUTY DIRECTOR
1    Male    Employee    43600.0    Per Annum    ASSOCIATE DIRECTOR
2    Male    Employee    120000.0   Per Annum    SPECIAL ASSISTANT TO THE PRESIDENT AND DEPUTY ...
3    Male    Employee    86200.0    Per Annum    LEAD ADVANCE REPRESENTATIVE
4    Male    Employee    106000.0   Per Annum    SPECIAL ASSISTANT TO THE PRESIDENT AND DIRECTO...
Riservatezza dei dati e anonimizzazione in Python

Soppressione di record su un dataset

# Explore the DataFrame
salaries.head()
      hours    performance    salary 
0     72       51             $80,500.00 
1     20       99             $2,805,000.00 
3     75       62             $75,800.00 
4     74       58             $60,000.00 
5     70       54             $79,000.00 
Riservatezza dei dati e anonimizzazione in Python

Soppressione di record su un dataset

# Drop rows with salaries higher than 2,000,000
salaries = salaries.drop(salaries[salaries.Salary > 2000000].index)

# See reasulting DataFrame
salaries.head()
      hours    performance    salary 
0     72       51             80500 
2     75       62             75800 
3     74       58             60000 
4     70       54             79000 
5     68       53             62000 
Riservatezza dei dati e anonimizzazione in Python

Soppressione e attacchi di collegamento

Immagine con due tabelle: a sinistra i dati medici risultanti dopo la soppressione di attributi e a destra dati di registrazione elettorale con alcune stesse informazioni dell’altra tabella

Riservatezza dei dati e anonimizzazione in Python

Ayo berlatih!

Riservatezza dei dati e anonimizzazione in Python

Preparing Video For Download...