Riservatezza dei dati e anonimizzazione in Python
Rebeca Gonzalez
Data engineer
Tecnica che sostituisce i valori con altri meno precisi.
Serve a rimuovere alcuni identificatori mantenendo l'utilità analitica.
Consente di sostituire un valore con uno più generico: "Dancer" -> "Artist"
name location
0 Amanda Hooper 146 Rodgers Field\nGregoryview, MS 71630
1 Sarah Smith 817 Garcia Shoal\nJonesville, AR 30299
2 Sean Boyd III 1938 90th St\nDallas, TX 59715
name location
0 Amanda Hooper 998 Boone Estate\nReedborough, MS 71630
1 Sarah Smith 7255 Shelby Rapids Apt. 455\nKarenland, AK 30299
2 Sean Boyd III 791 Crist Parks\nGreenton, TX 59715
# Dati originali
df_employees.head()
first name last name age ssn
0 Amber Brown 91 798-29-4785
1 William Gibson 34 431-66-8381
2 Daniel Lee 92 825-91-5550
3 Andrea Stevenson 64 188-59-3544
4 Julie Horn 35 020-60-6388
# Dati generalizzati: età in intervalli e SSN mascherato
generalized_df.head()
First name Last name Age SSN
0 Amber Brown (80, 99] 798-**-****
1 William Gibson (30, 50] 431-**-****
2 Daniel Lee (80, 99] 825-**-****
3 Andrea Stevenson (60, 80] 188-**-****
4 Julie Horn (30, 50] 020-**-****
Chi ha 34 anni finirà nell'intervallo 30–50. Questo si chiama binning.

# Esplora il dataset
df_medical.head()
age gender department condition
0 30 F Finance Anxiety disorders
1 42 M Production Bronchitis
2 35 F Marketing Dysthymia
3 39 F Production Dysthymia
4 40 M Marketing Flu
# Esplora l'istogramma della variabile età
df_medical['age'].hist(bins=15)

# Applica la generalizzazione trasformando in dati binari df_medical['age'] = df_medical['age'].apply(lambda x:">=40" if x>=40 else "<40" )# Vedi i risultati df_medical.head()
age gender department condition
0 <40 F Finance Bronchitis
1 >=40 M Production Bronquitis
2 <40 F Finance Dysthymia
3 <40 F Production Dysthymia
4 >=40 M Marketing Flu
# Esplora l'istogramma della variabile età
df_medical['age'].hist(bins=15)

# Filtra per vedere le righe interessate
df_medical[df_medical['age'] >= 55]
age gender department condition
26 56 F Production Flu
65 55 M Finance Dysthymia
126 59 F Production Anxiety disorders
139 58 F Finance Dysthymia
142 59 M Marketing Flu
145 57 M Marketing Anxiety disorders
# Top code dell'età a 55 df_medical.loc[df_medical['age'] > 55, 'age'] = 55# Filtra per vedere le righe interessate df_medical[df_medical['age'] >= 55]
age gender department condition
26 55 F Production Flu
65 55 M Finance Dysthymia
126 55 F Production Anxiety disorders
139 55 F Finance Dysthymia
142 55 M Marketing Flu
145 55 M Marketing Anxiety disorders
# Esplora l'istogramma della variabile età
df_medical['age'].hist(bins=15)

# Bottom code dell'età a 25 df_medical.loc[df['age'] < 25, 'age'] = 25# Esplora l'istogramma della variabile età df_medical['age'].hist(bins=15)

Meglio insieme a soppressione e masking seguendo un modello di privacy come k-anonymity.
Specifica vincoli che il dataset deve rispettare per tenere sotto controllo il rischio di disclosure.
Imparerai a implementarlo nel prossimo capitolo!
Riservatezza dei dati e anonimizzazione in Python