RLHF modellerini değerlendirme

İnsan Geri Bildiriminden Pekiştirmeli Öğrenme (RLHF)

Mina Parham

AI Engineer

Otomasyon metrikleri

Sınıflandırma görevi: Doğruluk, F1 skoru

classification_results.head(3)

| ID | Feedback_Text                         | True_Category | Predicted_Category |
|----|---------------------------------------|---------------|--------------------|
| 1  | "Arrived on time and works great."    | Positive      | Positive           |
| 2  | "I had issues with customer service." | Negative      | Neutral            |
| 3  | "The website is easy to navigate."    | Positive      | Positive           |

Otomasyon metrikleri

Metin üretimi, özetleme: ROUGE, BLEU

text_generation.head(3)

| ID | Prompt               | True_Completion  | Pred_Completion   |
|----|----------------------|------------------|-------------------|
| 1  | "Customer service"   | "can help you."  | "will assist."    |
| 2  | "To get a refund,"   | "contact us."    | "reach out."      |
| 3  | "Support team is"    | "here 24/7."     | "available 24/7." |

Otomasyon metrikleri

Referans ifade:

RLHF, modelleri insan değerleriyle uyumlu hale getirir.

ROUGE skoru: 0.83

Karşılaştırılacak ifade:

RLHF, modelleri insan değerleriyle hizalar.

Artefakt eğrileri

config = PPOConfig(
    model_name="lvwerra/gpt2-imdb",learning_rate=1.41e-5, log_with="wandb")

import wandb
wandb.init()

Weights and Biases terminal çıktısının ekran görüntüsü.

Artefakt eğrileri

Model öğrendikçe ödül artar.

Modelin iyileştiğini gösteren, ödülde yukarı yönlü bir eğri.

KL eğrisi kademeli artmalıdır.

KL kaybında kademeli artışı gösteren bir eğri.

İnsan odaklı değerlendirme

İnsan değerlendirmesi: öznel yargılar veya bağlamın derin kavranması

Dizüstünde çalışan bir insan değerlendirici.

Model değerlendirmesi: ölçeklenebilirlik ve tutarlılık

Bir model değerlendiriciyi temsil eden konuşma balonlu robot.

Ayo berlatih!

İnsan Geri Bildiriminden Pekiştirmeli Öğrenme (RLHF)