RLHF-modellen evalueren

Reinforcement Learning from Human Feedback (RLHF)

Mina Parham

AI Engineer

Automatiseringsmetrics

Classificatietaak: Accuracy, F1-score

classification_results.head(3)

| ID | Feedback_Text                         | True_Category | Predicted_Category |
|----|---------------------------------------|---------------|--------------------|
| 1  | "Arrived on time and works great."    | Positive      | Positive           |
| 2  | "I had issues with customer service." | Negative      | Neutral            |
| 3  | "The website is easy to navigate."    | Positive      | Positive           |

Automatiseringsmetrics

Tekstgeneratie, samenvatten: ROUGE, BLEU

text_generation.head(3)

| ID | Prompt               | True_Completion  | Pred_Completion   |
|----|----------------------|------------------|-------------------|
| 1  | "Customer service"   | "can help you."  | "will assist."    |
| 2  | "To get a refund,"   | "contact us."    | "reach out."      |
| 3  | "Support team is"    | "here 24/7."     | "available 24/7." |

Automatiseringsmetrics

Referentiezin:

RLHF verbetert de afstemming van het model op menselijke waarden.

ROUGE-score: 0,83

Te vergelijken zin:

RLHF stemt modellen af op menselijke waarden.

Artefactcurves

config = PPOConfig(
    model_name="lvwerra/gpt2-imdb",learning_rate=1.41e-5, log_with="wandb")

import wandb
wandb.init()

Een screenshot van de terminaluitvoer in Weights and Biases.

Artefactcurves

Beloning stijgt naarmate het model leert.

Een curve met een stijgende trend in de beloning; het model verbetert.

De KL-curve moet geleidelijk stijgen.

Een curve met een geleidelijke stijgende trend in het KL-verlies.

Mensgerichte evaluatie

Humanevaluatie: subjectieve oordelen of diep contextbegrip

Een menselijke beoordelaar achter haar laptop.

Modelevaluatie: schaalbaar en consistent

Een robot met tekstballonnen als modelbeoordelaar.

Laten we oefenen!

Reinforcement Learning from Human Feedback (RLHF)