Veri kaygıları ve dikkate alınacaklar

Large Language Models (LLMs) Kavramları

Vidhi Chugh

AI strategist and ethicist

Veriyle ilgili hususlar

Veriyle ilgili hususlar

Veri hacmi ve hesaplama gücü
Veri kalitesi
Etiketleme
Önyargı
Gizlilik

Veri hacmi ve hesaplama gücü

LLM'ler çok veri ister
- Konuşmayı öğrenen bir çocuğa benzer
- 570 GB, ~1,3 milyon kitap

Konuşmayı öğrenen çocuk

¹ Freepik

Veri hacmi ve hesaplama gücü

LLM'ler çok veri ister
- Konuşmayı öğrenen bir çocuğa benzer
- 570 GB, ~1,3 milyon kitap

Yoğun hesaplama gücü; enerji tüketimini düşünün

Maliyeti milyonlarca dolar olabilir!

Büyük sunucuya bağlı bir bilgisayarda çalışan adam

Veri kalitesi

Kaliteli veri esastır

Doğru veri = daha iyi öğrenme = daha iyi yanıtlar = daha fazla güven

Konuşmayı öğrenen bir çocuk
- Saçmalık girerse saçmalık çıkar

Hatalar veya zayıf dilbilgisi içeren verilerle LLM'leri eğitirsek düşük kaliteli çıktılar

Etiketli veri

Doğru etiket: isabetli öğrenme, genelleme, doğru yanıtlar
Emek yoğun: her içeriğe doğru etiket verme

Verileri etiketlemek için bilgisayarda çalışan ekip

Yanlış etiketler modeli olumsuz etkiler
Hataları gider: tespit et -> analiz et -> yineler

Veri önyargısı

Toplumsal kalıpyargılardan etkilenir
Eğitim verisinde çeşitlilik eksikliği
Ayrımcılık ve adaletsiz sonuçlar

Önyargılı veriyi saptayıp ele alın
- Dengesizlikleri değerlendirin
- Çeşitliliği artırın
- Önyargı azaltma: daha çeşitli örnekler

Veri önyargısı

Örnek:
- "Hemşire dedi ki..." -> "o" veya "kadın" zamiri varsayımı

Veri gizliliği

Veri koruma ve gizlilik düzenlemelerine uyum

Gizlilik bir endişedir
- İzinsiz veriyle eğitim ihlale yol açar
- Hukuki, mali ve itibar kaybı riski

Hassas veya kişisel tanımlanabilir bilgi (PII)

İzin alın

Veri gizliliği

Hadi pratik yapalım!

Large Language Models (LLMs) Kavramları

Preparing Video For Download...