Methoden voor het verzamelen van feedback van hoge kwaliteit

Reinforcement Learning from Human Feedback (RLHF)

Mina Parham

AI Engineer

Methoden voor het verzamelen van feedback van hoge kwaliteit

Het RLHF-proces, zonder het beloningsmodel.

Methoden voor het verzamelen van feedback van hoge kwaliteit

Het volledige RLHF-proces.

Paargewijze vergelijkingen

Kiezen tussen twee opties:
Voordelen: simpel, intuïtief, minder bias
Uitdagingen: minder informatie per label
Voorbeeld: Film A vs. Film B: "Welke heeft je voorkeur?

Een persoon met twee borden: één met een 'Geaccepteerd'-icoon en één met een 'Geweigerd'-icoon.

Paargewijze vergelijkingen

def evaluate_responses(responses_A, responses_B):
    wins_A, wins_B = 0, 0
    for (response_A, score_A), (response_B, score_B) in zip(responses_A, responses_B):
        if score_A > score_B:
            wins_A += 1
        else:
            wins_B += 1
    success_rate_A = (wins_A / len(responses_A)) * 100
    success_rate_B = (wins_B / len(responses_B)) * 100
    return success_rate_A, success_rate_B

Beoordelingen

Een score toekennen op een schaal:
Voordelen: levert gedetailleerdere feedback op
Uitdagingen: gevoelig voor bias, inconsistente schalen
Voorbeeld:
```
  Film A: 4/5
  Film B: 3/5
```

Een illustratie van een vrouw die een ster vasthoudt met iconen eromheen die beoordelingen voorstellen.

Psychologische factoren

Cognitieve biases:
- Framing-effect: hoe een vraag is geformuleerd beïnvloedt antwoorden
- Serieel posititie-effect: de volgorde van opties beïnvloedt keuzes
- Anchoring: eerdere info kleurt huidige beslissingen

Een persoon ziet met zijn ogen een vierkant maar interpreteert het als een rechthoek, ter illustratie van bias.

Richtlijnen voor het verzamelen van feedback van hoge kwaliteit

Cognitieve belasting: vermoeide gebruikers, inconsistente feedback
Formuleer vragen zorgvuldig
- Om risico's door cognitieve belasting te beperken
Randomiseer volgorde
- Om bias door anchoring en framing te verminderen
Verzamel diverse data
- Om ruis te beperken

Een man en een vrouw die feedback en teksten analyseren.

Laten we oefenen!

Reinforcement Learning from Human Feedback (RLHF)