Riservatezza dei dati e anonimizzazione in Python
Rebeca Gonzalez
Data engineer



"La capacità di garantire flussi di informazioni conformi alle norme sociali e legali."

Dati che, da soli o con altri dati rilevanti, possono identificare qualcuno.



Dati che non permettono di rintracciare una persona se usati da soli
Dati che, da soli, non permettono di rintracciare una persona, come genere, occupazione, CAP o città di nascita.

Protegge i PII di chi vive in Europa o i cui dati sono trattati in Europa.

Rimozione di informazioni selezionate per proteggere la privacy dei soggetti.
# Attribute suppression on Sensitive PII "name" suppressed_salaries = salaries.drop('name', axis="columns")# Explore obtained dataset suppressed_salaries.head()
gender status salary pay_basis position_title
0 Male Employee 64400.0 Per Annum DEPUTY DIRECTOR
1 Male Employee 43600.0 Per Annum ASSOCIATE DIRECTOR
2 Male Employee 120000.0 Per Annum SPECIAL ASSISTANT TO THE PRESIDENT AND DEPUTY ...
3 Male Employee 86200.0 Per Annum LEAD ADVANCE REPRESENTATIVE
4 Male Employee 106000.0 Per Annum SPECIAL ASSISTANT TO THE PRESIDENT AND DIRECTO...
# Explore the DataFrame
salaries.head()
hours performance salary
0 72 51 $80,500.00
1 20 99 $2,805,000.00
3 75 62 $75,800.00
4 74 58 $60,000.00
5 70 54 $79,000.00
# Drop rows with salaries higher than 2,000,000
salaries = salaries.drop(salaries[salaries.Salary > 2000000].index)
# See reasulting DataFrame
salaries.head()
hours performance salary
0 72 51 80500
2 75 62 75800
3 74 58 60000
4 70 54 79000
5 68 53 62000

Riservatezza dei dati e anonimizzazione in Python