Apa itu data privat, dan mengapa penting?

Privasi Data dan Anonimisasi di Python

Rebeca Gonzalez

Data engineer

Skandal Facebook dan Cambridge Analytica

Dampak privasi data

  • Akses tidak sah ke data pribadi 87 juta orang
  • Membangun profil psikologis pemilih AS
  • Mempengaruhi mereka saat kampanye politik

Mark Zuckerberg di pengadilan karena pelanggaran hak privasi data

Privasi Data dan Anonimisasi di Python

Apa itu privasi?

Orang-orang berjalan di jalan

Privasi Data dan Anonimisasi di Python

Aliran informasi dan privasi

Sistem pengenalan wajah pada seorang perempuan di jalan, dengan ikon GPS di atas kepalanya

Privasi Data dan Anonimisasi di Python

Aliran informasi dan privasi

  • Bagaimana data pribadi Anda mengalir

 

"Kemampuan memastikan aliran informasi yang memenuhi norma sosial dan hukum."

Sistem pengenalan wajah pada seorang perempuan di jalan, dengan ikon GPS di atas kepalanya

Privasi Data dan Anonimisasi di Python

Personally identifiable information (PII)

Data yang, sendiri atau digabung dengan data relevan lain, dapat mengidentifikasi seseorang.

Form kertas dengan kolom untuk informasi pribadi dan pena

Privasi Data dan Anonimisasi di Python

PII sensitif

  • Jelas tentang seseorang
  • Paparan dapat menimbulkan bahaya, malu, atau kerepotan

Gambar pria dengan pop-up berisi informasi yang tampak pribadi

Privasi Data dan Anonimisasi di Python

PII sensitif

  • Nama lengkap
  • Social Security Number (SSN)
  • Informasi keuangan
  • Rekam medis

Gambar GDPR yang menunjukkan denda maksimum bagi pelanggar regulasi

Privasi Data dan Anonimisasi di Python

PII non-sensitif

Data yang tidak dapat digunakan sendiri untuk melacak seseorang

  • Gender
  • Pekerjaan
  • Kode pos
  • Kota lahir
Privasi Data dan Anonimisasi di Python

PII non-sensitif

Data yang tidak dapat digunakan sendiri untuk melacak seseorang, seperti gender, pekerjaan, kode pos, atau kota lahir.

  • Gender
  • Pekerjaan
  • Kode pos
  • Kota lahir
Masih bisa dipadukan dengan data lain untuk mengidentifikasi seseorang!

Teks berbunyi "Kepala pemerintahan di Eropa" dan tanggal lahir, dengan garis menunjuk ke wajah Angela Merkel

1 Foto Angela Merkel dari Wikimedia Commons.
Privasi Data dan Anonimisasi di Python

GDPR: Regulasi Perlindungan Data Umum UE

Melindungi PII orang yang tinggal, atau datanya diproses, di Eropa.

Prinsip utama GDPR

  1. Keabsahan, keadilan, dan transparansi
  2. Pembatasan tujuan
  3. Minimasi data
  4. Akurasi
  5. Pembatasan penyimpanan

Pelajari lebih lanjut di sini

Gambar GDPR yang menunjukkan denda maksimum bagi pelanggar regulasi

Privasi Data dan Anonimisasi di Python

Penekanan data

Menghapus informasi tertentu untuk melindungi privasi subjek.

Penekanan atribut
  • Menghapus kolom sepenuhnya
Penekanan sel/rekor
  • Menghapus atau mengganti data pada baris atau sel
Privasi Data dan Anonimisasi di Python

Penekanan atribut pada dataset

# Attribute suppression on Sensitive PII "name"
suppressed_salaries = salaries.drop('name', axis="columns")


# Explore obtained dataset suppressed_salaries.head()
     gender    status    salary     pay_basis    position_title
0    Male    Employee    64400.0    Per Annum    DEPUTY DIRECTOR
1    Male    Employee    43600.0    Per Annum    ASSOCIATE DIRECTOR
2    Male    Employee    120000.0   Per Annum    SPECIAL ASSISTANT TO THE PRESIDENT AND DEPUTY ...
3    Male    Employee    86200.0    Per Annum    LEAD ADVANCE REPRESENTATIVE
4    Male    Employee    106000.0   Per Annum    SPECIAL ASSISTANT TO THE PRESIDENT AND DIRECTO...
Privasi Data dan Anonimisasi di Python

Penekanan rekor pada dataset

# Explore the DataFrame
salaries.head()
      hours    performance    salary 
0     72       51             $80,500.00 
1     20       99             $2,805,000.00 
3     75       62             $75,800.00 
4     74       58             $60,000.00 
5     70       54             $79,000.00 
Privasi Data dan Anonimisasi di Python

Penekanan rekor pada dataset

# Drop rows with salaries higher than 2,000,000
salaries = salaries.drop(salaries[salaries.Salary > 2000000].index)

# See reasulting DataFrame
salaries.head()
      hours    performance    salary 
0     72       51             80500 
2     75       62             75800 
3     74       58             60000 
4     70       54             79000 
5     68       53             62000 
Privasi Data dan Anonimisasi di Python

Penekanan dan serangan tautan

Gambar dua tabel: kiri data medis hasil penekanan atribut, kanan data pendaftaran pemilih dengan sebagian data yang sama

Privasi Data dan Anonimisasi di Python

Ayo berlatih!

Privasi Data dan Anonimisasi di Python

Preparing Video For Download...