Dataprivacy en anonimisering in Python
Rebeca Gonzalez
Data engineer
Techniek om gegevens te vervangen door minder precieze waarden.
Doel: enkele identificatoren verwijderen en toch bruikbaarheid voor analyse behouden.
Vervang een waarde door een minder precieze: "Danser" -> "Kunstenaar"
name location
0 Amanda Hooper 146 Rodgers Field\nGregoryview, MS 71630
1 Sarah Smith 817 Garcia Shoal\nJonesville, AR 30299
2 Sean Boyd III 1938 90th St\nDallas, TX 59715
name location
0 Amanda Hooper 998 Boone Estate\nReedborough, MS 71630
1 Sarah Smith 7255 Shelby Rapids Apt. 455\nKarenland, AK 30299
2 Sean Boyd III 791 Crist Parks\nGreenton, TX 59715
# Originele data
df_employees.head()
first name last name age ssn
0 Amber Brown 91 798-29-4785
1 William Gibson 34 431-66-8381
2 Daniel Lee 92 825-91-5550
3 Andrea Stevenson 64 188-59-3544
4 Julie Horn 35 020-60-6388
# Gegeneraliseerde data: leeftijd in intervallen en gemaskeerd SSN
generalized_df.head()
First name Last name Age SSN
0 Amber Brown (80, 99] 798-**-****
1 William Gibson (30, 50] 431-**-****
2 Daniel Lee (80, 99] 825-**-****
3 Andrea Stevenson (60, 80] 188-**-****
4 Julie Horn (30, 50] 020-**-****
Mensen van 34 jaar vallen in de range 30–50. Dit heet ook binning.

# Verken de dataset
df_medical.head()
age gender department condition
0 30 F Finance Anxiety disorders
1 42 M Production Bronchitis
2 35 F Marketing Dysthymia
3 39 F Production Dysthymia
4 40 M Marketing Flu
# Bekijk het histogram van de variabele age
df_medical['age'].hist(bins=15)

# Pas generalisatie toe door te binaire data te transformeren df_medical['age'] = df_medical['age'].apply(lambda x:">=40" if x>=40 else "<40" )# Bekijk de resultaten df_medical.head()
age gender department condition
0 <40 F Finance Bronchitis
1 >=40 M Production Bronquitis
2 <40 F Finance Dysthymia
3 <40 F Production Dysthymia
4 >=40 M Marketing Flu
# Bekijk het histogram van de variabele age
df_medical['age'].hist(bins=15)

# Filter om getroffen rijen te zien
df_medical[df_medical['age'] >= 55]
age gender department condition
26 56 F Production Flu
65 55 M Finance Dysthymia
126 59 F Production Anxiety disorders
139 58 F Finance Dysthymia
142 59 M Marketing Flu
145 57 M Marketing Anxiety disorders
# Top-code age naar 55 df_medical.loc[df_medical['age'] > 55, 'age'] = 55# Filter om getroffen rijen te zien df_medical[df_medical['age'] >= 55]
age gender department condition
26 55 F Production Flu
65 55 M Finance Dysthymia
126 55 F Production Anxiety disorders
139 55 F Finance Dysthymia
142 55 M Marketing Flu
145 55 M Marketing Anxiety disorders
# Bekijk het histogram van de variabele age
df_medical['age'].hist(bins=15)

# Bottom-code age naar 25 df_medical.loc[df['age'] < 25, 'age'] = 25# Bekijk het histogram van de variabele age df_medical['age'].hist(bins=15)

Werkt beter samen met Suppression en Masking volgens een privacymodel zoals k-anonimiteit.
Stel voorwaarden waaraan de dataset moet voldoen om onthullingsrisico te beheersen.
We leren dit privacymodel in het volgende hoofdstuk implementeren!
Dataprivacy en anonimisering in Python