Test

Concetti di LLMOps

Max Knobbout, PhD

Applied Scientist, Uber

Ciclo di vita LLM: test

Panoramica delle fasi del ciclo di vita di un'app LLM

Concetti di LLMOps

Perché testare?

 

Immagine giocosa di due personaggi cartoon con pollice su e pollice giù

 

 

  • Gli LLM sbagliano
  • Il test è vitale per valutare la prontezza al deploy
  • Ci concentreremo sulla valutazione dell’output
Concetti di LLMOps

ML tradizionale vs test per app LLM

ML supervisionato tradizionale:

  • Servono dati di train e test etichettati
  • Metriche su accuratezza o vicinanza al target

Immagine di train e test set per ML tradizionale

Applicazioni LLM:

  • Servono dati di test, non per forza etichettati
  • Qualità dell’output con varie metriche

Immagine di train e test set per applicazioni LLM

Concetti di LLMOps

Passo 1: creare un test set

 

Immagine giocosa di personaggi cartoon che raccolgono dati

 

 

  • Il test set ora dovrebbe essere pronto
  • I dati di test devono riflettere casi reali
  • Vari strumenti possono aiutarci
Concetti di LLMOps

Passo 2: scegliere la metrica

Se c'è una risposta corretta...

  • ... usa metriche di ML. Esempio:
    • Accuracy

Diagramma di flusso che indica "Use ML metrics"

Concetti di LLMOps

Passo 2: scegliere la metrica

Se c'è una risposta di riferimento...

  • ... usa metodi statistici.
  • ... usa metodi basati su modelli. Esempio:
    • Giudici LLM

Diagramma di flusso che indica "Use text comparison metrics"

Concetti di LLMOps

Passo 2: scegliere la metrica

Se abbiamo feedback umano...

  • ... fai valutare il testo alle persone. Esempi:
    • Valuta qualità
    • Valuta pertinenza
    • Valuta coerenza
  • ... usa approccio basato su modelli. Esempio:
    • Predici il voto dai feedback passati
    • Chiedi a un giudice LLM se il feedback è stato recepito

Diagramma di flusso che indica "Use feedback score metrics"

Concetti di LLMOps

Passo 2: scegliere la metrica

Se non c'è feedback umano...

  • ... usa metriche non supervisionate. Esempi:
    • Coerenza
    • Fluidità
    • Diversità

Diagramma di flusso che indica "Use unsupervised metrics"

Concetti di LLMOps

Passo 3: metriche secondarie opzionali

 

 

Caratteristiche dell'output:

  • 🎭 Bias
  • ☠ Tossicità
  • 🤝 Utilità

 

 

Caratteristiche operative:

  • ⏱ Latenza
  • 💰 Costo totale
  • 💻 Uso di memoria
Concetti di LLMOps

Il ciclo di sviluppo

Ciclo di sviluppo con l’attività di fine-tuning aggiunta

Concetti di LLMOps

Il ciclo di sviluppo

Ciclo di sviluppo con l’attività di test aggiunta

Concetti di LLMOps

Il ciclo di sviluppo

Ciclo di sviluppo con l’attività di test aggiunta

Concetti di LLMOps

Il ciclo di sviluppo

Ciclo di sviluppo con l’attività di deploy aggiunta

Concetti di LLMOps

Passiamo alla pratica!

Concetti di LLMOps

Preparing Video For Download...