Avaliação do modelo

Conceitos de IA Generativa

Daniel Tedesco

Data Lead, Google

Afinal, por que avaliar?

Avaliação do desempenho e eficácia de um modelo:

  • Mede os avanços
  • Comparação rigorosa de modelos
  • Comparação com o desempenho humano
Conceitos de IA Generativa

Avaliação de IAs generativas

Métricas quantitativas

Números, representando métricas quantitativas

  • Métricas de avaliação de modelos discriminativos
  • Métricas específicas de modelos generativos

Métricas centradas no ser humano

Balões de fala, representando métricas centradas no ser humano

  • Comparação com o desempenho humano
  • Avaliação inteligente
Conceitos de IA Generativa

Técnicas de avaliação de modelos discriminativos

Avaliam o desempenho em tarefas bem definidas

Vantagens:

  • Bastante aceitas e compreendidas
  • Fáceis de calcular e comparar

Desvantagens:

  • Não captam a natureza subjetiva dos conteúdos gerados

Um alvo com dardos perto do centro.

Conceitos de IA Generativa

Métricas específicas de modelos generativos

Feitas sob medida para certas tarefas generativas

Vantagens:

  • Critérios detalhados, como realismo, diversidade e originalidade
  • Muitas métricas bem conhecidas

Desvantagens:

  • Não captam muitos elementos subjetivos
  • Muitas vezes não são generalizáveis

Ilustrações de vacas.

Conceitos de IA Generativa

Comparação com o desempenho humano

 

Vantagens:

  • Comparação com as habilidades humanas
  • Demonstra aplicação prática

Desvantagens:

  • Comparação injusta

Uma IA competindo com um humano.

Conceitos de IA Generativa

IAs premiadas

Competições com humanos

Obra de arte premiada gerada por IA, com a faixa azul de vencedora

Testes padronizados com humanos

Gráfico que mostra o desempenho do GPT-4 em vários testes padronizados com humanos. Ele supera a maioria dos alunos em testes bem conhecidos, como o Uniform Bar Exam, exame de advogados, e o GRE, exame de pós-graduação.

1 https://twitter.com/colostatefair/status/1565486317839863809, OpenAI
Conceitos de IA Generativa

O padrão de excelência

Avaliação inteligente por humanos ou outras IAs

Vantagens:

  • Capta aspectos subjetivos

Desvantagens:

  • Lenta, cara e difícil de padronizar
  • Sujeita a irregularidades e vieses humanos
Conceitos de IA Generativa

O clássico teste de Turing

 

  • Proposto pelo cientista da computação Alan Turing
  • Um avaliador humano julga o conteúdo gerado pela IA
  • Aprovado se o avaliador não consegue diferenciar a IA de um humano
  • Mas o comportamento humano nem sempre é o padrão ideal

Ilustração do teste de Turing, com um avaliador humano, uma tela de computador exibindo um conteúdo gerado por IA e um conteúdo gerado por um humano, representando o processo de diferenciação dos dois.

Conceitos de IA Generativa

Vamos praticar!

Conceitos de IA Generativa

Preparing Video For Download...