Test etme

LLMOps Kavramları

Max Knobbout, PhD

Applied Scientist, Uber

LLM yaşam döngüsü: Test etme

LLM uygulama yaşam döngüsü aşamalarının genel görünümü

Neden test etmeliyiz?

LLM'ler hata yapar
Uygulamanın yayına hazır olduğunu değerlendirmek için test kritik önemdedir
Çıktıyı değerlendirmeyi ele alacağız

Geleneksel ML ve LLM uygulama testi

Geleneksel gözetimli makine öğrenimi:

Etiketli eğitim ve test verisi gerekir
Hedefe yakınlık/doğruluğa odaklanan metrikler

Geleneksel ML için eğitim ve test seti görseli

LLM uygulamaları:

Test verisi gerekir, etiketli olmak zorunda değil
Farklı metriklerle çıktı kalitesi

LLM uygulamaları için eğitim ve test seti görseli

Adım 1: Test seti oluşturma

Test setini oluşturma artık tamamlanmış olmalı
Test verisi, gerçek senaryolara çok benzemelidir
Bu süreçte çeşitli araçlar yardımcı olabilir

Adım 2: Metriği seçmek

Doğru bir yanıt varsa...

... makine öğrenimi metriklerini kullanın. Örnek:
- Doğruluk

"ML metriklerini kullanın" ifadesini gösteren akış şeması

Adım 2: Metriği seçmek

Bir referans yanıt varsa...

... istatistiksel yöntemleri kullanın.
... modele dayalı yöntemleri kullanın. Örnek:
- LLM yargıçları

"Metin karşılaştırma metriklerini kullanın" ifadesini gösteren akış şeması

Adım 2: Metriği seçmek

İnsan geri bildirimi varsa...

... metni insanlara puanlatın. Örnekler:
- Kaliteyi puanlayın
- İlgililiği puanlayın
- Tutarlılığı puanlayın
... modele dayalı yaklaşım kullanın. Örnek:
- Geçmiş geri bildirimle puanı tahmin edin
- Geri bildirim yansıtıldı mı diye LLM yargıcına sorun

"Geri bildirim puanı metriklerini kullanın" ifadesini gösteren akış şeması

Adım 2: Metriği seçmek

İnsan geri bildirimi yoksa...

... gözetimsiz metrikleri kullanın. Örnekler:
- Tutarlılık
- Akıcılık
- Çeşitlilik

"Gözetimsiz metrikleri kullanın" ifadesini gösteren akış şeması

Adım 3: İsteğe bağlı ikincil metrikleri tanımlayın

Çıktı özellikleri:

🎭 Önyargı
☠ Toksisite
🤝 Yardımseverlik

Operasyonel özellikler:

⏱ Gecikme
💰 Toplam maliyet
💻 Bellek kullanımı

Geliştirme döngüsü

İnce ayar etkinliğini eklediğimiz geliştirme döngüsü

Geliştirme döngüsü

Test etme etkinliğini eklediğimiz geliştirme döngüsü

Geliştirme döngüsü

Test etme etkinliğini eklediğimiz geliştirme döngüsü

Geliştirme döngüsü

Yayınlama etkinliğini eklediğimiz geliştirme döngüsü

Ayo berlatih!

LLMOps Kavramları

Preparing Video For Download...