Messa a punto avanzata

Concetti sui Large Language Models (LLM)

Vidhi Chugh

AI strategist and ethicist

Dove siamo?

immagine di avanzamento che mostra che siamo alla fase di messa a punto avanzata

Concetti sui Large Language Models (LLM)

Reinforcement Learning con feedback umano

 

  • Pre-training

 

  • Fine-tuning

 

  • Reinforcement Learning tramite feedback umano (RLHF)

 

Illustrazione di quattro persone che danno feedback positivo con emoji e stelle.

Concetti sui Large Language Models (LLM)

Pre-training

  • Grandi quantità di testo:
    • Siti web, libri e articoli
    • Architettura Transformer
    • Impara pattern linguistici, grammatica e fatti

 

  • Predizione della parola successiva
  • Masked language modeling

Processo di pre-training per creare LLM

1 Freepik
Concetti sui Large Language Models (LLM)

Fine-tuning

 

  • Addestramento N-shot

 

  • Piccolo dataset etichettato per un task correlato

Processo di fine-tuning

Concetti sui Large Language Models (LLM)

Ma perché RLHF?

  • I dati di addestramento generici mancano di qualità
    • Rumore
    • Errori
    • Incoerenze
    • Accuratezza ridotta

Esempio di precisione ridotta:

  • Addestrato su forum online
  • Opinioni e fatti non verificati
  • Serve verifica di un esperto esterno

 

Bersaglio con frecce fuori dal centro

Concetti sui Large Language Models (LLM)

Si parte dal bisogno di fare fine-tuning

  • Pre-training
    • Impara i pattern linguistici di base
    • Non cattura le complessità specifiche del contesto

 

  • Fine-tuning
    • Dati etichettati di qualità migliorano le prestazioni

 

  • Entra in gioco RLHF!
    • Feedback umano
Concetti sui Large Language Models (LLM)

RLHF in breve

 

  • Output del modello rivisto da un umano
  • Aggiorna il modello in base al feedback

 

  • Passo 1:
    • Riceve un prompt
    • Genera più risposte

 

 

un LLM che riceve un prompt e genera una risposta

Concetti sui Large Language Models (LLM)

Entra l’esperto umano

 

  • Passo 2:
    • Un esperto umano controlla le risposte
    • Le classifica per qualità
      • Accuratezza
      • Rilevanza
      • Coerenza

aggiunta della verifica umana alle risposte dell'LLM

Concetti sui Large Language Models (LLM)

Tempo di feedback

  • Passo 3:
    • Impara dal ranking dell’esperto
    • Allinea le risposte future alle sue preferenze

 

  • E si continua!
    • Continua a generare risposte
    • Riceve i ranking dell’esperto
    • Aggiorna l’apprendimento

 

 

Il feedback umano viene reinserito nell'LLM

Concetti sui Large Language Models (LLM)

Riepilogo

  • Pre-training per la conoscenza linguistica generale

 

  • Fine-tuning per task specifici

 

  • RLHF per potenziare il fine-tuning con feedback umano

 

  • La combinazione è molto efficace!
Concetti sui Large Language Models (LLM)

Completare l’LLM

L'intero processo di training di un LLM

Concetti sui Large Language Models (LLM)

Vamos praticar!

Concetti sui Large Language Models (LLM)

Preparing Video For Download...