Anonimizzazione con generalizzazione dei dati

Riservatezza dei dati e anonimizzazione in Python

Rebeca Gonzalez

Data engineer

Generalizzazione dei dati

Tecnica che sostituisce i valori con altri meno precisi.

Serve a rimuovere alcuni identificatori mantenendo l'utilità analitica.

Consente di sostituire un valore con uno più generico: "Dancer" -> "Artist"

     name               location
0    Amanda Hooper      146 Rodgers Field\nGregoryview, MS 71630
1    Sarah Smith        817 Garcia Shoal\nJonesville, AR 30299
2    Sean Boyd III      1938 90th St\nDallas, TX 59715

     name               location
0    Amanda Hooper      998 Boone Estate\nReedborough, MS 71630
1    Sarah Smith        7255 Shelby Rapids Apt. 455\nKarenland, AK 30299
2    Sean Boyd III      791 Crist Parks\nGreenton, TX 59715

Generalizzazione dei dati

# Dati originali
df_employees.head()

     first name   last name    age   ssn
0    Amber        Brown        91    798-29-4785
1    William      Gibson       34    431-66-8381
2    Daniel       Lee          92    825-91-5550
3    Andrea       Stevenson    64    188-59-3544
4    Julie        Horn         35    020-60-6388

# Dati generalizzati: età in intervalli e SSN mascherato
generalized_df.head()

    First name    Last name    Age        SSN
0    Amber        Brown        (80, 99]    798-**-****
1    William      Gibson       (30, 50]    431-**-****
2    Daniel       Lee          (80, 99]    825-**-****
3    Andrea       Stevenson    (60, 80]    188-**-****
4    Julie        Horn         (30, 50]    020-**-****

Chi ha 34 anni finirà nell'intervallo 30–50. Questo si chiama binning.

Aggregazione dei dati

Immagine con un elenco di professioni a sinistra e delle macro-categorie a destra.

Dataset medico

# Esplora il dataset
df_medical.head()

    age    gender    department    condition
0    30    F         Finance       Anxiety disorders
1    42    M         Production    Bronchitis
2    35    F         Marketing     Dysthymia
3    39    F         Production    Dysthymia
4    40    M         Marketing     Flu

Dataset medico

# Esplora l'istogramma della variabile età
df_medical['age'].hist(bins=15)

Istogramma generato dell'attributo età dal dataset, creato con il metodo hist

Generalizzazione

# Applica la generalizzazione trasformando in dati binari
df_medical['age'] = df_medical['age'].apply(lambda x:">=40" if x>=40 else "<40" )


# Vedi i risultati
df_medical.head()

    age    gender    department    condition
0    <40   F         Finance       Bronchitis
1    >=40  M         Production    Bronquitis
2    <40   F         Finance       Dysthymia
3    <40   F         Production    Dysthymia
4    >=40  M         Marketing     Flu

Top e bottom coding

# Esplora l'istogramma della variabile età
df_medical['age'].hist(bins=15)

Istogramma generato dell'attributo età dal dataset, creato con il metodo hist

Pochi hanno meno di 25 anni e pochi più di 55
Applica limiti per ridurre il rischio di re-identificazione di questi outlier
Utile quando ci sono pochissime osservazioni in una categoria, specie in coda alla distribuzione

Top coding

# Filtra per vedere le righe interessate
df_medical[df_medical['age'] >= 55]

      age   gender   department     condition
26    56    F        Production     Flu
65    55    M        Finance        Dysthymia
126   59    F        Production     Anxiety disorders
139   58    F        Finance        Dysthymia
142   59    M        Marketing      Flu
145   57    M        Marketing      Anxiety disorders

Top code

# Top code dell'età a 55
df_medical.loc[df_medical['age'] > 55, 'age'] = 55


# Filtra per vedere le righe interessate
df_medical[df_medical['age'] >= 55]

      age   gender   department     condition
26    55    F        Production     Flu
65    55    M        Finance        Dysthymia
126   55    F        Production     Anxiety disorders
139   55    F        Finance        Dysthymia
142   55    M        Marketing      Flu
145   55    M        Marketing      Anxiety disorders

Bottom coding

# Esplora l'istogramma della variabile età
df_medical['age'].hist(bins=15)

Istogramma risultante dell'attributo età dopo il top coding. Non mostra outlier a destra corrispondenti ai valori più alti

Bottom code

# Bottom code dell'età a 25
df_medical.loc[df['age'] < 25, 'age'] = 25


# Esplora l'istogramma della variabile età
df_medical['age'].hist(bins=15)

Istogramma risultante dell'attributo età dopo top e bottom coding. Non mostra outlier

Generalizzazione dati e modelli di privacy

Meglio insieme a soppressione e masking seguendo un modello di privacy come k-anonymity.

Specifica vincoli che il dataset deve rispettare per tenere sotto controllo il rischio di disclosure.

Imparerai a implementarlo nel prossimo capitolo!

È il momento di esercitarsi!

Riservatezza dei dati e anonimizzazione in Python