Testen

LLMOps-concepten

Max Knobbout, PhD

Applied Scientist, Uber

LLM-levenscyclus: testen

Overzicht van de fasen in de LLM-applicatielevenscyclus

LLMOps-concepten

Waarom testen?

 

Een speelse afbeelding van twee cartoonfiguren met een duim omhoog en een duim omlaag

 

 

  • LLM’s maken fouten
  • Testen is cruciaal om te bepalen of de app klaar is voor uitrol
  • We richten ons op het evalueren van de output
LLMOps-concepten

Traditionele ML vs. testen van LLM-toepassingen

Traditionele supervised machine learning:

  • Gelabelde train- en testdata nodig
  • Metrics die focussen op nauwkeurigheid of nabijheid van target

Afbeelding van train- en testset voor traditionele ML

LLM-toepassingen:

  • Testdata nodig, niet per se gelabeld
  • Kwaliteit van output met diverse     metrics

Afbeelding van train- en testset voor LLM-toepassingen

LLMOps-concepten

Stap 1: Een testset bouwen

 

Speelse afbeelding van cartoonfiguren die data verzamelen

 

 

  • De testset is nu opgebouwd
  • Testdata moet lijken op echte scenarios
  • Verschillende tools kunnen helpen
LLMOps-concepten

Stap 2: Kies je metric

Als er één juist antwoord is...

  • ... gebruik ML-metrics. Voorbeeld:
    • Accuracy

Stroomschema dat naar "Use ML metrics" wijst

LLMOps-concepten

Stap 2: Kies je metric

Als er een referentie-antwoord is...

  • ... gebruik statistische methoden.
  • ... gebruik modelgebaseerde methoden. Voorbeeld:
    • LLM-rechters

Stroomschema dat naar "Use text comparison metrics" wijst

LLMOps-concepten

Stap 2: Kies je metric

Als we menselijke feedback hebben...

  • ... laat mensen de tekst scoren. Voorbeelden:
    • Beoordeel kwaliteit
    • Beoordeel relevantie
    • Beoordeel coherentie
  • ... gebruik een modelgebaseerde aanpak. Voorbeeld:
    • Voorspel score op basis van eerdere feedback
    • Vraag een LLM-rechter of de feedback is verwerkt

Stroomschema dat naar "Use feedback score metrics" wijst

LLMOps-concepten

Stap 2: Kies je metric

Als er geen menselijke feedback is...

  • ... gebruik unsupervised metrics. Voorbeelden:
    • Coherentie
    • Vloeiendheid
    • Diversiteit

Stroomschema dat naar "Use unsupervised metrics" wijst

LLMOps-concepten

Stap 3: Optionele secundaire metrics

 

 

Outputkenmerken:

  • 🎭 Bias
  • ☠ Toxiciteit
  • 🤝 Helpfulness

 

 

Operationele kenmerken:

  • ⏱ Latentie
  • 💰 Totale kosten
  • 💻 Geheugengebruik
LLMOps-concepten

De ontwikkelcyclus

Ontwikkelcyclus waarin we fine-tuning hebben toegevoegd

LLMOps-concepten

De ontwikkelcyclus

Ontwikkelcyclus waarin we testen hebben toegevoegd

LLMOps-concepten

De ontwikkelcyclus

Ontwikkelcyclus waarin we testen hebben toegevoegd

LLMOps-concepten

De ontwikkelcyclus

Ontwikkelcyclus waarin we uitrol hebben toegevoegd

LLMOps-concepten

Laten we oefenen!

LLMOps-concepten

Preparing Video For Download...