Geavanceerd fine-tunen

Concepten van Large Language Models (LLMs)

Vidhi Chugh

AI strategist and ethicist

Waar zijn we?

voortgang: we zijn bij Geavanceerd fine-tunen

Reinforcement Learning met menselijke feedback

Pre-training

Fine-tuning

Reinforcement Learning through Human Feedback (RLHF)

Illustratie van vier mensen die positieve feedback geven met emoji's en sterren.

Pre-training

Grote hoeveelheden tekstdata:
- Websites, boeken en artikelen
- Transformer-architectuur
- Leert taalpatronen, grammatica en feiten

Volgend-woordvoorspelling
Gemaskeerde taalmodellering

Pre-trainingproces om LLM's te bouwen

¹ Freepik

Fine-tuning

N-shot training

Kleine gelabelde dataset voor verwante taak

Fijn-afstemmingsproces

Maar waarom RLHF?

Generieke trainingsdata mist kwaliteit
- Ruis
- Fouten
- Inconsistenties
- Lagere nauwkeurigheid

Voorbeeld van lagere nauwkeurigheid:

Getraind op data van online forums
Ongevalideerde meningen en feiten
Heeft externe expertvalidatie nodig

Schietschijf met pijlen naast de roos

Het begint met de noodzaak tot fine-tunen

Pre-training
- Leert onderliggende taalpatronen
- Vangt contextspecifieke nuances niet

Fine-tuning
- Kwalitatieve labeldata verbetert prestaties

Enter RLHF!
- Menselijke feedback

RLHF, eenvoudig uitgelegd

Modeloutput wordt door een mens beoordeeld
Model wordt bijgewerkt op basis van feedback

Stap 1:
- Ontvangt een prompt
- Genereert meerdere antwoorden

een LLM die een prompt verwerkt en een antwoord genereert

Hier komt de expert

Stap 2:
- Expert controleert de antwoorden
- Rangschikt ze op kwaliteit
  - Nauwkeurigheid
  - Relevantie
  - Coherentie

menselijke verificatie toevoegen aan LLM-antwoorden

Tijd voor feedback

Stap 3:
- Leert van de ranking van de expert
- Stemmt toekomstige antwoorden af op hun voorkeuren

En zo verder!
- Blijft antwoorden genereren
- Krijgt expert-rankings
- Past het leren aan

Menselijke feedback wordt teruggevoerd naar de LLM

Samenvatting

Pre-training voor algemene taalkennis

Fine-tuning voor specifieke taken

RLHF om fine-tuning te versterken met menselijke feedback

De combinatie werkt erg goed!

De LLM afronden

Het volledige LLM-trainingsproces

Laten we oefenen!

Concepten van Large Language Models (LLMs)

Preparing Video For Download...