RAG vs fine-tuning

Concetti di LLMOps

Max Knobbout, PhD

Applied Scientist, Uber

Ciclo di vita LLM: RAG vs fine-tuning

Panoramica delle fasi del ciclo di vita di un’app LLM

Cartone giocoso che usa una banana per alimentare un tablet

Combina il ragionamento degli LLM con conoscenza esterna.
Tre step in una chain:
1. Retrieve documenti correlati
2. Augment il prompt con esempi
3. Generate l’output
Spesso implementato con database vettoriali.

Retrieve:
- Converte l’input in embedding
- Cerca nel database vettoriale
- Recupera i documenti più simili

Catena di recupero

Retrieve:
- Genera embedding dall’input
- Cerca nel database vettoriale
- Recupera i documenti più simili
Augment:
- Combina input e documenti per creare il prompt finale

Catena di arricchimento

Retrieve:
- Genera embedding dall’input
- Cerca nel database vettoriale
- Recupera i documenti più simili
Augment:
- Combina l’input con i top-k documenti e crea il prompt arricchito
Generate:
- Usa il prompt per creare un output

Molte scelte d’implementazione e modelli di embedding. Sperimenta e testa!

Catena di generazione

Fine-tuning supervisionato (transfer learning)

Dati necessari 📂:

Reinforcement Learning from Human Feedback (RLHF)

Dati necessari 📂:

Approccio 🔍:

Approccio 🔍:

Cartone giocoso che usa una banana per alimentare un tablet

Usa quando serve specializzare in un nuovo dominio
✅ Pieno controllo e nessun componente extra
❌ Richiede dati etichettati e competenze specialistiche, rischio di amplificare bias e di forgetting catastrofico

Ciclo di sviluppo con l’attività di sviluppo di chain e agent

Ciclo di sviluppo con l’attività di RAG

Ciclo di sviluppo con l’attività di fine-tuning

Concetti di LLMOps