Test etme

LLMOps Kavramları

Max Knobbout, PhD

Applied Scientist, Uber

LLM yaşam döngüsü: Test etme

LLM uygulama yaşam döngüsü aşamalarının genel görünümü

LLMOps Kavramları

Neden test etmeliyiz?

 

Başparmak yukarı ve aşağı işareti tutan iki çizgi karakterin eğlenceli görseli

 

 

  • LLM'ler hata yapar
  • Uygulamanın yayına hazır olduğunu değerlendirmek için test kritik önemdedir
  • Çıktıyı değerlendirmeyi ele alacağız
LLMOps Kavramları

Geleneksel ML ve LLM uygulama testi

Geleneksel gözetimli makine öğrenimi:

  • Etiketli eğitim ve test verisi gerekir
  • Hedefe yakınlık/doğruluğa odaklanan metrikler

Geleneksel ML için eğitim ve test seti görseli

LLM uygulamaları:

  • Test verisi gerekir, etiketli olmak zorunda değil
  • Farklı metriklerle çıktı kalitesi

LLM uygulamaları için eğitim ve test seti görseli

LLMOps Kavramları

Adım 1: Test seti oluşturma

 

Veri toplayan çizgi karakterlerin eğlenceli görseli

 

 

  • Test setini oluşturma artık tamamlanmış olmalı
  • Test verisi, gerçek senaryolara çok benzemelidir
  • Bu süreçte çeşitli araçlar yardımcı olabilir
LLMOps Kavramları

Adım 2: Metriği seçmek

Doğru bir yanıt varsa...

  • ... makine öğrenimi metriklerini kullanın. Örnek:
    • Doğruluk

"ML metriklerini kullanın" ifadesini gösteren akış şeması

LLMOps Kavramları

Adım 2: Metriği seçmek

Bir referans yanıt varsa...

  • ... istatistiksel yöntemleri kullanın.
  • ... modele dayalı yöntemleri kullanın. Örnek:
    • LLM yargıçları

"Metin karşılaştırma metriklerini kullanın" ifadesini gösteren akış şeması

LLMOps Kavramları

Adım 2: Metriği seçmek

İnsan geri bildirimi varsa...

  • ... metni insanlara puanlatın. Örnekler:
    • Kaliteyi puanlayın
    • İlgililiği puanlayın
    • Tutarlılığı puanlayın
  • ... modele dayalı yaklaşım kullanın. Örnek:
    • Geçmiş geri bildirimle puanı tahmin edin
    • Geri bildirim yansıtıldı mı diye LLM yargıcına sorun

"Geri bildirim puanı metriklerini kullanın" ifadesini gösteren akış şeması

LLMOps Kavramları

Adım 2: Metriği seçmek

İnsan geri bildirimi yoksa...

  • ... gözetimsiz metrikleri kullanın. Örnekler:
    • Tutarlılık
    • Akıcılık
    • Çeşitlilik

"Gözetimsiz metrikleri kullanın" ifadesini gösteren akış şeması

LLMOps Kavramları

Adım 3: İsteğe bağlı ikincil metrikleri tanımlayın

 

 

Çıktı özellikleri:

  • 🎭 Önyargı
  • ☠ Toksisite
  • 🤝 Yardımseverlik

 

 

Operasyonel özellikler:

  • ⏱ Gecikme
  • 💰 Toplam maliyet
  • 💻 Bellek kullanımı
LLMOps Kavramları

Geliştirme döngüsü

İnce ayar etkinliğini eklediğimiz geliştirme döngüsü

LLMOps Kavramları

Geliştirme döngüsü

Test etme etkinliğini eklediğimiz geliştirme döngüsü

LLMOps Kavramları

Geliştirme döngüsü

Test etme etkinliğini eklediğimiz geliştirme döngüsü

LLMOps Kavramları

Geliştirme döngüsü

Yayınlama etkinliğini eklediğimiz geliştirme döngüsü

LLMOps Kavramları

Ayo berlatih!

LLMOps Kavramları

Preparing Video For Download...