Valutazione del modello

Concetti di IA generativa

Daniel Tedesco

Data Lead, Google

Perché valutare?

Valuta prestazioni ed efficacia di un modello:

  • Misura i progressi
  • Confronto rigoroso tra modelli
  • Benchmark rispetto agli umani
Concetti di IA generativa

Valutare le IA generative

Metriche quantitative

Numeri, che rappresentano metriche quantitative

  • Metriche per modelli discriminativi
  • Metriche specifiche per modelli generativi

Metriche incentrate sull'utente

Fumetti di conversazione, che rappresentano metriche incentrate sull'utente

  • Confronto con prestazioni umane
  • Valutazione intelligente
Concetti di IA generativa

Valutazione di modelli discriminativi

Misura le prestazioni su task ben definiti

Pro:

  • Ampiamente accettate e comprensibili
  • Facili da calcolare e confrontare

Contro:

  • Non colgono la natura soggettiva dei contenuti generati

Un bersaglio con freccette vicino al centro.

Concetti di IA generativa

Metriche specifiche per modelli generativi

Su misura per specifici task generativi

Pro:

  • Criteri sfumati, come realismo, diversità, novità
  • Molte metriche note

Contro:

  • Non catturano molti elementi soggettivi
  • Spesso non generalizzano

Illustrazioni di mucche.

Concetti di IA generativa

Confronto con prestazioni umane

 

Pro:

  • Confronta con capacità umane
  • Mostra applicabilità pratica

Contro:

  • Confronto non equo

Un'IA che compete con un umano.

Concetti di IA generativa

IA da premio

Gare umane

Opera d'arte generata da IA vincitrice di un premio, con il nastro blu

Test standardizzati umani

Un grafico che mostra le prestazioni di GPT-4 in diversi test standardizzati umani. Supera la maggior parte degli studenti in prove note come l'Uniform Bar Exam e il GRE.

1 https://twitter.com/colostatefair/status/1565486317839863809, OpenAI
Concetti di IA generativa

Il gold standard

Valutazione intelligente da parte di umani o altre IA

Pro:

  • Coglie aspetti soggettivi

Contro:

  • Lenta, costosa e difficile da standardizzare
  • Soggetta a bias e irregolarità umane
Concetti di IA generativa

Il test classico di Turing

 

  • Proposto dall'informatico Alan Turing
  • Un valutatore umano giudica contenuti generati dall'IA
  • Supera il test se non distingue IA da umano
  • Ma il comportamento umano non è sempre lo standard giusto

Rappresentazione del test di Turing, con un valutatore umano, uno schermo con contenuti generati dall'IA e contenuti umani, che illustra il processo di distinzione tra i due.

Concetti di IA generativa

Passiamo alla pratica !

Concetti di IA generativa

Preparing Video For Download...