Geavanceerd fine-tunen

Concepten van Large Language Models (LLMs)

Vidhi Chugh

AI strategist and ethicist

Waar zijn we?

voortgang: we zijn bij Geavanceerd fine-tunen

Concepten van Large Language Models (LLMs)

Reinforcement Learning met menselijke feedback

 

  • Pre-training

 

  • Fine-tuning

 

  • Reinforcement Learning through Human Feedback (RLHF)

 

Illustratie van vier mensen die positieve feedback geven met emoji's en sterren.

Concepten van Large Language Models (LLMs)

Pre-training

  • Grote hoeveelheden tekstdata:
    • Websites, boeken en artikelen
    • Transformer-architectuur
    • Leert taalpatronen, grammatica en feiten

 

  • Volgend-woordvoorspelling
  • Gemaskeerde taalmodellering

Pre-trainingproces om LLM's te bouwen

1 Freepik
Concepten van Large Language Models (LLMs)

Fine-tuning

 

  • N-shot training

 

  • Kleine gelabelde dataset voor verwante taak

Fijn-afstemmingsproces

Concepten van Large Language Models (LLMs)

Maar waarom RLHF?

  • Generieke trainingsdata mist kwaliteit
    • Ruis
    • Fouten
    • Inconsistenties
    • Lagere nauwkeurigheid

Voorbeeld van lagere nauwkeurigheid:

  • Getraind op data van online forums
  • Ongevalideerde meningen en feiten
  • Heeft externe expertvalidatie nodig

 

Schietschijf met pijlen naast de roos

Concepten van Large Language Models (LLMs)

Het begint met de noodzaak tot fine-tunen

  • Pre-training
    • Leert onderliggende taalpatronen
    • Vangt contextspecifieke nuances niet

 

  • Fine-tuning
    • Kwalitatieve labeldata verbetert prestaties

 

  • Enter RLHF!
    • Menselijke feedback
Concepten van Large Language Models (LLMs)

RLHF, eenvoudig uitgelegd

 

  • Modeloutput wordt door een mens beoordeeld
  • Model wordt bijgewerkt op basis van feedback

 

  • Stap 1:
    • Ontvangt een prompt
    • Genereert meerdere antwoorden

 

 

een LLM die een prompt verwerkt en een antwoord genereert

Concepten van Large Language Models (LLMs)

Hier komt de expert

 

  • Stap 2:
    • Expert controleert de antwoorden
    • Rangschikt ze op kwaliteit
      • Nauwkeurigheid
      • Relevantie
      • Coherentie

menselijke verificatie toevoegen aan LLM-antwoorden

Concepten van Large Language Models (LLMs)

Tijd voor feedback

  • Stap 3:
    • Leert van de ranking van de expert
    • Stemmt toekomstige antwoorden af op hun voorkeuren

 

  • En zo verder!
    • Blijft antwoorden genereren
    • Krijgt expert-rankings
    • Past het leren aan

 

 

Menselijke feedback wordt teruggevoerd naar de LLM

Concepten van Large Language Models (LLMs)

Samenvatting

  • Pre-training voor algemene taalkennis

 

  • Fine-tuning voor specifieke taken

 

  • RLHF om fine-tuning te versterken met menselijke feedback

 

  • De combinatie werkt erg goed!
Concepten van Large Language Models (LLMs)

De LLM afronden

Het volledige LLM-trainingsproces

Concepten van Large Language Models (LLMs)

Laten we oefenen!

Concepten van Large Language Models (LLMs)

Preparing Video For Download...