Kekhawatiran dan pertimbangan data

Konsep Large Language Models (LLM)

Vidhi Chugh

AI strategist and ethicist

Pertimbangan data

 

Pertimbangan data

 

  • Volume data dan daya komputasi
  • Kualitas data
  • Pelabelan
  • Bias
  • Privasi
Konsep Large Language Models (LLM)

Volume data dan daya komputasi

  • LLM butuh banyak data
    • Mirip anak belajar berbicara
    • 570 GB, ~1,3 juta buku

 

Anak belajar berbicara

1 Freepik
Konsep Large Language Models (LLM)

Volume data dan daya komputasi

  • LLM butuh banyak data
    • Mirip anak belajar berbicara
    • 570 GB, ~1,3 juta buku

 

  • Daya komputasi besar; perhatikan konsumsi energi

 

  • Bisa menelan biaya jutaan dolar!

Pria bekerja di komputer tersambung ke server besar

Konsep Large Language Models (LLM)

Kualitas data

  • Data berkualitas itu penting

 

  • Data akurat = pembelajaran lebih baik = respons lebih tepat = kepercayaan naik

 

  • Anak belajar berbicara
    • Omong kosong masuk -> omong kosong keluar

keluaran berkualitas rendah jika kita melatih LLM dengan data penuh kesalahan atau tata bahasa buruk

Konsep Large Language Models (LLM)

Data berlabel

  • Label data benar: belajar akurat, pola terumum, respons tepat

  • Padat karya: memberi label benar untuk tiap artikel

Tim memberi label data di komputer

  • Label salah menurunkan kinerja model
  • Tangani error: identifikasi -> analisis -> iterasi
Konsep Large Language Models (LLM)

Bias data

  • Dipengaruhi stereotip sosial
  • Kurangnya keragaman pada data latih
  • Diskriminasi dan hasil tidak adil

 

  • Deteksi dan atasi bias data
    • Evaluasi ketidakseimbangan
    • Dorong keragaman
    • Teknik mitigasi bias: tambah contoh beragam

Bias data

  • Contoh:

    • "The nurse said that..." -> "she" atau "her"
Konsep Large Language Models (LLM)

Privasi data

  • Patuhi regulasi perlindungan data dan privasi

 

  • Privasi adalah perhatian utama
    • Melatih tanpa izin bisa melanggar
    • Dampak hukum, finansial, dan reputasi
  • Data sensitif atau informasi pribadi teridentifikasi (PII)

 

  • Dapatkan izin

Privasi data

Konsep Large Language Models (LLM)

Ayo berlatih!

Konsep Large Language Models (LLM)

Preparing Video For Download...