Messa a punto avanzata

Concetti sui Large Language Models (LLM)

Vidhi Chugh

AI strategist and ethicist

Dove siamo?

immagine di avanzamento che mostra che siamo alla fase di messa a punto avanzata

Reinforcement Learning con feedback umano

Pre-training

Fine-tuning

Reinforcement Learning tramite feedback umano (RLHF)

Illustrazione di quattro persone che danno feedback positivo con emoji e stelle.

Pre-training

Grandi quantità di testo:
- Siti web, libri e articoli
- Architettura Transformer
- Impara pattern linguistici, grammatica e fatti

Predizione della parola successiva
Masked language modeling

Processo di pre-training per creare LLM

¹ Freepik

Fine-tuning

Addestramento N-shot

Piccolo dataset etichettato per un task correlato

Processo di fine-tuning

Ma perché RLHF?

I dati di addestramento generici mancano di qualità
- Rumore
- Errori
- Incoerenze
- Accuratezza ridotta

Esempio di precisione ridotta:

Addestrato su forum online
Opinioni e fatti non verificati
Serve verifica di un esperto esterno

Bersaglio con frecce fuori dal centro

Si parte dal bisogno di fare fine-tuning

Pre-training
- Impara i pattern linguistici di base
- Non cattura le complessità specifiche del contesto

Fine-tuning
- Dati etichettati di qualità migliorano le prestazioni

Entra in gioco RLHF!
- Feedback umano

RLHF in breve

Output del modello rivisto da un umano
Aggiorna il modello in base al feedback

Passo 1:
- Riceve un prompt
- Genera più risposte

un LLM che riceve un prompt e genera una risposta

Entra l’esperto umano

Passo 2:
- Un esperto umano controlla le risposte
- Le classifica per qualità
  - Accuratezza
  - Rilevanza
  - Coerenza

aggiunta della verifica umana alle risposte dell'LLM

Tempo di feedback

Passo 3:
- Impara dal ranking dell’esperto
- Allinea le risposte future alle sue preferenze

E si continua!
- Continua a generare risposte
- Riceve i ranking dell’esperto
- Aggiorna l’apprendimento

Il feedback umano viene reinserito nell'LLM

Riepilogo

Pre-training per la conoscenza linguistica generale

Fine-tuning per task specifici

RLHF per potenziare il fine-tuning con feedback umano

La combinazione è molto efficace!

Completare l’LLM

L'intero processo di training di un LLM

Vamos praticar!

Concetti sui Large Language Models (LLM)

Preparing Video For Download...