RLHF-modellen evalueren

Reinforcement Learning from Human Feedback (RLHF)

Mina Parham

AI Engineer

Automatiseringsmetrics

 

  • Classificatietaak: Accuracy, F1-score
classification_results.head(3)
| ID | Feedback_Text                         | True_Category | Predicted_Category |
|----|---------------------------------------|---------------|--------------------|
| 1  | "Arrived on time and works great."    | Positive      | Positive           |
| 2  | "I had issues with customer service." | Negative      | Neutral            |
| 3  | "The website is easy to navigate."    | Positive      | Positive           |
Reinforcement Learning from Human Feedback (RLHF)

Automatiseringsmetrics

 

  • Tekstgeneratie, samenvatten: ROUGE, BLEU
text_generation.head(3)
| ID | Prompt               | True_Completion  | Pred_Completion   |
|----|----------------------|------------------|-------------------|
| 1  | "Customer service"   | "can help you."  | "will assist."    |
| 2  | "To get a refund,"   | "contact us."    | "reach out."      |
| 3  | "Support team is"    | "here 24/7."     | "available 24/7." |
Reinforcement Learning from Human Feedback (RLHF)

Automatiseringsmetrics

 

 

Referentiezin:

  • RLHF verbetert de afstemming van het model op menselijke waarden.

 

 

ROUGE-score: 0,83

 

 

Te vergelijken zin:

  • RLHF stemt modellen af op menselijke waarden.
Reinforcement Learning from Human Feedback (RLHF)

Artefactcurves

config = PPOConfig(
    model_name="lvwerra/gpt2-imdb",learning_rate=1.41e-5, log_with="wandb")
import wandb
wandb.init()

Een screenshot van de terminaluitvoer in Weights and Biases.

Reinforcement Learning from Human Feedback (RLHF)

Artefactcurves

  • Beloning stijgt naarmate het model leert.

Een curve met een stijgende trend in de beloning; het model verbetert.

  • De KL-curve moet geleidelijk stijgen.

Een curve met een geleidelijke stijgende trend in het KL-verlies.

Reinforcement Learning from Human Feedback (RLHF)

Mensgerichte evaluatie

  • Humanevaluatie: subjectieve oordelen of diep contextbegrip

Een menselijke beoordelaar achter haar laptop.

  • Modelevaluatie: schaalbaar en consistent

Een robot met tekstballonnen als modelbeoordelaar.

Reinforcement Learning from Human Feedback (RLHF)

Laten we oefenen!

Reinforcement Learning from Human Feedback (RLHF)

Preparing Video For Download...