Evaluación del modelo

Conceptos de la IA generativa

Daniel Tedesco

Data Lead, Google

¿Por qué evaluar?

Evaluar el rendimiento y la eficacia de un modelo:

  • Medir el progreso
  • Comparación rigurosa de modelos
  • Comparar el rendimiento humano
Conceptos de la IA generativa

Evaluación de las IA generativas

Métricas cuantitativas

Números, que representan métricas cuantitativas

  • Métricas de evaluación de modelos discriminativos
  • Parámetros específicos del modelo generativo

Métricas centradas en las personas

Burbujas de conversación, que representan métricas centradas en las personas

  • Comparación del rendimiento humano
  • Evaluación inteligente
Conceptos de la IA generativa

Técnicas de evaluación de modelos discriminativos

Medir el rendimiento en tareas bien definidas

Pros:

  • Ampliamente aceptada y comprendida
  • Fácil de calcular y comparar

Contras:

  • No capturan la naturaleza subjetiva del contenido generado

Una diana con dardos cerca de la diana.

Conceptos de la IA generativa

Parámetros específicos del modelo generativo

Personalizado para tareas generativas específicas

Pros:

  • Criterios matizados, como el realismo, la diversidad y la originalidad
  • Muchas métricas conocidas

Contras:

  • No se pueden capturar muchos elementos subjetivos
  • A menudo no se generaliza

Ilustraciones de vacas.

Conceptos de la IA generativa

Comparación del rendimiento humano

 

Pros:

  • Supera a las capacidades humanas
  • Demuestra aplicabilidad práctica

Contras

  • Comparación injusta

Una IA compitiendo contra un humano

Conceptos de la IA generativa

IA galardonadas

Competiciones humanas

Obra de arte generada por IA galardonada, con la cinta azul que la distingue como ganadora

Pruebas estandarizadas en humanos

Un gráfico que muestra el rendimiento de GPT-4 en varias pruebas estandarizadas para humanos. Supera a la mayoría de los estudiantes en exámenes de reconocido prestigio, como el Uniform Bar Exam y el GRE.

1 https://twitter.com/colostatefair/status/1565486317839863809, OpenAI
Conceptos de la IA generativa

El patrón de oro

Evaluación inteligente por parte de seres humanos u otras IA

Pros:

  • Captura aspectos subjetivos

Contras:

  • Lenta, costosa y difícil de estandarizar
  • Sujeta a sesgos humanos e irregularidades
Conceptos de la IA generativa

La prueba clásica de Turing

 

  • Propuesto por el informático Alan Turing.
  • Un evaluador humano juzga el contenido generado por IA.
  • Se aprueba si el evaluador no puede distinguir entre IA y humano.
  • Pero el comportamiento humano no siempre es la norma correcta.

Una representación de la configuración del test de Turing, con un evaluador humano, una pantalla de ordenador que muestra contenido generado por IA y contenido generado por humanos, que ilustra el proceso de distinción entre ambos.

Conceptos de la IA generativa

¡Vamos a practicar!

Conceptos de la IA generativa

Preparing Video For Download...