Dataprivacy en anonimisering in Python
Rebeca Gonzalez
Data engineer



"De mogelijkheid om informatiestromen te waarborgen die voldoen aan sociale en juridische normen."

Gegevens die, alleen of gecombineerd met andere relevante data, iemand kunnen identificeren.



Gegevens die op zichzelf iemand niet kunnen traceren
Gegevens die op zichzelf iemand niet kunnen traceren, zoals geslacht, beroep, postcode of geboorteplaats.

Beschermt PII van mensen die in Europa wonen of wier data daar wordt verwerkt.

Selectieve informatie verwijderen om de privacy te beschermen.
# Attribute suppression on Sensitive PII "name" suppressed_salaries = salaries.drop('name', axis="columns")# Explore obtained dataset suppressed_salaries.head()
gender status salary pay_basis position_title
0 Male Employee 64400.0 Per Annum DEPUTY DIRECTOR
1 Male Employee 43600.0 Per Annum ASSOCIATE DIRECTOR
2 Male Employee 120000.0 Per Annum SPECIAL ASSISTANT TO THE PRESIDENT AND DEPUTY ...
3 Male Employee 86200.0 Per Annum LEAD ADVANCE REPRESENTATIVE
4 Male Employee 106000.0 Per Annum SPECIAL ASSISTANT TO THE PRESIDENT AND DIRECTO...
# Explore the DataFrame
salaries.head()
hours performance salary
0 72 51 $80,500.00
1 20 99 $2,805,000.00
3 75 62 $75,800.00
4 74 58 $60,000.00
5 70 54 $79,000.00
# Drop rows with salaries higher than 2,000,000
salaries = salaries.drop(salaries[salaries.Salary > 2000000].index)
# See reasulting DataFrame
salaries.head()
hours performance salary
0 72 51 80500
2 75 62 75800
3 74 58 60000
4 70 54 79000
5 68 53 62000

Dataprivacy en anonimisering in Python