Ajuste fino avançado

Conceitos de Grandes Modelos de Linguagem (LLMs)

Vidhi Chugh

AI strategist and ethicist

Onde estamos?

Imagem do andamento mostrando que estamos na fase de ajuste fino avançado

Conceitos de Grandes Modelos de Linguagem (LLMs)

Aprendizado por reforço com feedback humano

 

  • Pré-treinamento

 

  • Ajuste fino

 

  • Aprendizado por reforço com feedback humano (RLHF)

 

Ilustração de quatro pessoas dando feedback positivo usando emojis e estrelas.

Conceitos de Grandes Modelos de Linguagem (LLMs)

Pré-treinamento

  • Grandes quantidades de dados de texto:
    • Sites, livros e artigos
    • Arquitetura de transformadores
    • Aprende padrões gerais de linguagem, gramática e fatos

 

  • Previsão da próxima palavra
  • Modelagem de linguagem mascarada

Processo de pré-treinamento para desenvolver LLMs

1 Freepik
Conceitos de Grandes Modelos de Linguagem (LLMs)

Ajuste fino

 

  • Treinamento n-shot

 

  • Pequeno conjunto de dados rotulados para tarefas relacionadas

Processo de ajuste fino

Conceitos de Grandes Modelos de Linguagem (LLMs)

Mas por que usar o RLHF?

  • Baixa qualidade nos dados de treinamento de uso geral
    • Ruídos
    • Erros
    • Inconsistências
    • Menor precisão

Exemplo de menor precisão:

  • Treinado com dados de fóruns online
  • Opiniões e fatos não validados
  • Requer validação de especialista externo

 

Alvo de arco e flecha com flechas que não acertaram o centro

Conceitos de Grandes Modelos de Linguagem (LLMs)

Começa com a necessidade de ajuste fino

  • Pré-treinamento
    • Aprende os padrões linguísticos básicos
    • Não capta a complexidade específica do contexto

 

  • Ajuste fino
    • Dados rotulados de qualidade melhoram o desempenho

 

  • Entra o RLHF!
    • Feedback humano
Conceitos de Grandes Modelos de Linguagem (LLMs)

O RLHF de forma simples

 

  • Saídas do modelo revisadas por humanos
  • Atualização do modelo com base no feedback

 

  • Etapa 1:
    • Recebe um prompt
    • Gera várias respostas

 

 

LLM recebendo um prompt de entrada e gerando uma resposta

Conceitos de Grandes Modelos de Linguagem (LLMs)

Entra o especialista humano

 

  • Etapa 2:
    • Especialista humano verifica as respostas
    • Classifica as respostas com base na qualidade
      • Precisão
      • Relevância
      • Coerência

incluindo verificação humana na resposta de LLMs

Conceitos de Grandes Modelos de Linguagem (LLMs)

Hora do feedback

  • Etapa 3:
    • Aprende com a classificação do especialista
    • Para alinhar respostas futuras com as preferências dele

 

  • E assim segue!
    • Continua gerando respostas
    • Recebe classificações do especialista
    • Ajusta o aprendizado

 

 

A resposta humana retorna para o LLM

Conceitos de Grandes Modelos de Linguagem (LLMs)

Revisão

  • Pré-treinamento para aprender conhecimentos gerais de linguagem

 

  • Ajuste fino para tarefas específicas

 

  • Técnicas de RLHF para melhorar o ajuste fino usando feedback humano

 

  • A combinação é supereficaz!
Conceitos de Grandes Modelos de Linguagem (LLMs)

Conclusão do LLM

Processo completo de treinamento de LLMs

Conceitos de Grandes Modelos de Linguagem (LLMs)

Vamos praticar!

Conceitos de Grandes Modelos de Linguagem (LLMs)

Preparing Video For Download...