Évaluation du modèle

Concepts d'IA générative

Daniel Tedesco

Data Lead, Google

À quoi bon évaluer ?

Évaluer la performance et l'efficacité d'un modèle :

  • Mesurer les progrès
  • Comparaison rigoureuse des modèles
  • Évaluation des performances humaines
Concepts d'IA générative

Évaluation des IA génératives

Mesures quantitatives

Chiffres, représentant des mesures quantitatives

  • Mesures d'évaluation des modèles discriminants
  • Mesures spécifiques aux modèles génératifs

Mesures centrées sur l'homme

Bulles de conversation, représentant des mesures centrées sur l'humain

  • Comparaison des performances humaines
  • Évaluation intelligente
Concepts d'IA générative

Techniques d'évaluation de modèles discriminants

Mesurer les performances sur des tâches bien définies

Les pour :

  • Largement acceptée et comprise
  • Facile à calculer et à comparer

Les contre :

  • Ne tient pas compte de la nature subjective du contenu généré

Un jeu de fléchettes avec des fléchettes près du point d'impact

Concepts d'IA générative

Mesures spécifiques aux modèles génératifs

Personnalisé pour des tâches génératives particulières

Les pour :

  • Critères nuancés, comme le réalisme, la diversité et la nouveauté
  • De nombreuses mesures bien connues

Les contre :

  • Impossibilité de saisir de nombreux éléments subjectifs
  • Souvent, ils ne généralisent pas

Illustrations de vaches

Concepts d'IA générative

Comparaison des performances humaines

 

Les pour :

  • Comparaison avec les capacités humaines
  • Démontrer l'applicabilité pratique

Les contre :

  • Comparaison inéquitable

Une IA en compétition avec un humain.

Concepts d'IA générative

IA primées

Concours humains

Œuvre d'art générée par l'IA, récompensée par un ruban bleu.

Tests humains normalisés

Un tableau montrant les performances de GPT-4 sur plusieurs tests humains standardisés. Il obtient de meilleurs résultats que la plupart des étudiants dans des tests réputés tels que l'Uniform Bar Exam et le GRE.

1 https://twitter.com/colostatefair/status/1565486317839863809, OpenAI
Concepts d'IA générative

La référence absolue

Évaluation intelligente par des humains ou d'autres IA

Pour :

  • Capture des aspects subjectifs

Contre :

  • Lent, coûteux et difficile à normaliser
  • Sujet à des biais humains et à des irrégularités
Concepts d'IA générative

Le test classique de Turing

 

  • Proposée par l'informaticien Alan Turing
  • Un évaluateur humain juge le contenu généré par l'IA
  • Réussite si l'évaluateur ne peut pas distinguer l'IA de l'homme
  • Mais le comportement humain n'est pas toujours la bonne norme

Représentation de la configuration du test de Turing, avec un évaluateur humain, un écran d'ordinateur affichant un contenu généré par l'IA et un contenu généré par l'homme, illustrant le processus de distinction entre les deux

Concepts d'IA générative

Passons à la pratique !

Concepts d'IA générative

Preparing Video For Download...