Privasi Data dan Anonimisasi di Python
Rebeca Gonzalez
Data engineer



"Kemampuan memastikan aliran informasi yang memenuhi norma sosial dan hukum."

Data yang, sendiri atau digabung dengan data relevan lain, dapat mengidentifikasi seseorang.



Data yang tidak dapat digunakan sendiri untuk melacak seseorang
Data yang tidak dapat digunakan sendiri untuk melacak seseorang, seperti gender, pekerjaan, kode pos, atau kota lahir.

Melindungi PII orang yang tinggal, atau datanya diproses, di Eropa.

Menghapus informasi tertentu untuk melindungi privasi subjek.
# Attribute suppression on Sensitive PII "name" suppressed_salaries = salaries.drop('name', axis="columns")# Explore obtained dataset suppressed_salaries.head()
gender status salary pay_basis position_title
0 Male Employee 64400.0 Per Annum DEPUTY DIRECTOR
1 Male Employee 43600.0 Per Annum ASSOCIATE DIRECTOR
2 Male Employee 120000.0 Per Annum SPECIAL ASSISTANT TO THE PRESIDENT AND DEPUTY ...
3 Male Employee 86200.0 Per Annum LEAD ADVANCE REPRESENTATIVE
4 Male Employee 106000.0 Per Annum SPECIAL ASSISTANT TO THE PRESIDENT AND DIRECTO...
# Explore the DataFrame
salaries.head()
hours performance salary
0 72 51 $80,500.00
1 20 99 $2,805,000.00
3 75 62 $75,800.00
4 74 58 $60,000.00
5 70 54 $79,000.00
# Drop rows with salaries higher than 2,000,000
salaries = salaries.drop(salaries[salaries.Salary > 2000000].index)
# See reasulting DataFrame
salaries.head()
hours performance salary
0 72 51 80500
2 75 62 75800
3 74 58 60000
4 70 54 79000
5 68 53 62000

Privasi Data dan Anonimisasi di Python