RLHF modellerini değerlendirme

İnsan Geri Bildiriminden Pekiştirmeli Öğrenme (RLHF)

Mina Parham

AI Engineer

Otomasyon metrikleri

 

  • Sınıflandırma görevi: Doğruluk, F1 skoru
classification_results.head(3)
| ID | Feedback_Text                         | True_Category | Predicted_Category |
|----|---------------------------------------|---------------|--------------------|
| 1  | "Arrived on time and works great."    | Positive      | Positive           |
| 2  | "I had issues with customer service." | Negative      | Neutral            |
| 3  | "The website is easy to navigate."    | Positive      | Positive           |
İnsan Geri Bildiriminden Pekiştirmeli Öğrenme (RLHF)

Otomasyon metrikleri

 

  • Metin üretimi, özetleme: ROUGE, BLEU
text_generation.head(3)
| ID | Prompt               | True_Completion  | Pred_Completion   |
|----|----------------------|------------------|-------------------|
| 1  | "Customer service"   | "can help you."  | "will assist."    |
| 2  | "To get a refund,"   | "contact us."    | "reach out."      |
| 3  | "Support team is"    | "here 24/7."     | "available 24/7." |
İnsan Geri Bildiriminden Pekiştirmeli Öğrenme (RLHF)

Otomasyon metrikleri

 

 

Referans ifade:

  • RLHF, modelleri insan değerleriyle uyumlu hale getirir.

 

 

ROUGE skoru: 0.83

 

 

Karşılaştırılacak ifade:

  • RLHF, modelleri insan değerleriyle hizalar.
İnsan Geri Bildiriminden Pekiştirmeli Öğrenme (RLHF)

Artefakt eğrileri

config = PPOConfig(
    model_name="lvwerra/gpt2-imdb",learning_rate=1.41e-5, log_with="wandb")
import wandb
wandb.init()

Weights and Biases terminal çıktısının ekran görüntüsü.

İnsan Geri Bildiriminden Pekiştirmeli Öğrenme (RLHF)

Artefakt eğrileri

  • Model öğrendikçe ödül artar.

Modelin iyileştiğini gösteren, ödülde yukarı yönlü bir eğri.

  • KL eğrisi kademeli artmalıdır.

KL kaybında kademeli artışı gösteren bir eğri.

İnsan Geri Bildiriminden Pekiştirmeli Öğrenme (RLHF)

İnsan odaklı değerlendirme

  • İnsan değerlendirmesi: öznel yargılar veya bağlamın derin kavranması

Dizüstünde çalışan bir insan değerlendirici.

  • Model değerlendirmesi: ölçeklenebilirlik ve tutarlılık

Bir model değerlendiriciyi temsil eden konuşma balonlu robot.

İnsan Geri Bildiriminden Pekiştirmeli Öğrenme (RLHF)

Ayo berlatih!

İnsan Geri Bildiriminden Pekiştirmeli Öğrenme (RLHF)

Preparing Video For Download...