RAG versus fine-tunen

LLMOps-concepten

Max Knobbout, PhD

Applied Scientist, Uber

LLM-levenscyclus: RAG versus fine-tunen

Overzicht van de fasen in de LLM-toepassingslevenscyclus

Speelse cartoon die een banaan gebruikt om een tablet van stroom te voorzien

Combineer de redeneercapaciteiten van LLM's met externe kennis.
Drie stappen in een keten:
1. Retrieve verwante documenten
2. Augment prompt met voorbeelden
3. Generate output
Vaak geïmplementeerd met vectordatabases.

Retrieve:
- Zet input om naar embedding
- Zoek in vectordatabase
- Haal meest vergelijkbare documenten op

Retrieve-keten

Retrieve:
- Maak embedding van input
- Zoek in vectordatabase
- Haal meest vergelijkbare documenten op
Augment:
- Combineert input met documenten tot een definitieve prompt

Augment-keten

Retrieve:
- Maak embedding van input
- Zoek in vectordatabase
- Haal meest vergelijkbare documenten op
Augment:
- Combineer input met top-k documenten en maak een augmented prompt
Generate:
- Gebruikt de prompt om een output te maken

Veel implementatiekeuzes en embeddingmodellen. Experimenteer en test!

Genereerketen

Past de gewichten van de LLM aan
Uitbreiden naar specifieke taken en domeinen:
- Verschillende talen
- Gespecialiseerde vakgebieden

Supervised fine-tuning (transfer learning)

Type data nodig 📂:

Reinforcement Learning from Human Feedback (RLHF)

Type data nodig 📂:

Aanpak 🔍:

Aanpak 🔍:

Speelse cartoon die een banaan gebruikt om een tablet van stroom te voorzien

Gebruik bij specialisatie in een nieuw domein
✅ Volledige controle en geen extra componenten
❌ Vereist gelabelde data & specialistische kennis, biasversterking, catastrofaal vergeten

Ontwikkelcyclus waarin we de activiteit van keten- en agentontwikkeling toevoegden

Ontwikkelcyclus waarin we de activiteit RAG toevoegden

Ontwikkelcyclus waarin we de activiteit fine-tuning toevoegden

LLMOps-concepten