Ajuste fino avançado

Conceitos de Grandes Modelos de Linguagem (LLMs)

Vidhi Chugh

AI strategist and ethicist

Onde estamos?

Imagem do andamento mostrando que estamos na fase de ajuste fino avançado

Aprendizado por reforço com feedback humano

Pré-treinamento

Ajuste fino

Aprendizado por reforço com feedback humano (RLHF)

Ilustração de quatro pessoas dando feedback positivo usando emojis e estrelas.

Pré-treinamento

Grandes quantidades de dados de texto:
- Sites, livros e artigos
- Arquitetura de transformadores
- Aprende padrões gerais de linguagem, gramática e fatos

Previsão da próxima palavra
Modelagem de linguagem mascarada

Processo de pré-treinamento para desenvolver LLMs

¹ Freepik

Ajuste fino

Treinamento n-shot

Pequeno conjunto de dados rotulados para tarefas relacionadas

Processo de ajuste fino

Mas por que usar o RLHF?

Baixa qualidade nos dados de treinamento de uso geral
- Ruídos
- Erros
- Inconsistências
- Menor precisão

Exemplo de menor precisão:

Treinado com dados de fóruns online
Opiniões e fatos não validados
Requer validação de especialista externo

Alvo de arco e flecha com flechas que não acertaram o centro

Começa com a necessidade de ajuste fino

Pré-treinamento
- Aprende os padrões linguísticos básicos
- Não capta a complexidade específica do contexto

Ajuste fino
- Dados rotulados de qualidade melhoram o desempenho

Entra o RLHF!
- Feedback humano

O RLHF de forma simples

Saídas do modelo revisadas por humanos
Atualização do modelo com base no feedback

Etapa 1:
- Recebe um prompt
- Gera várias respostas

LLM recebendo um prompt de entrada e gerando uma resposta

Entra o especialista humano

Etapa 2:
- Especialista humano verifica as respostas
- Classifica as respostas com base na qualidade
  - Precisão
  - Relevância
  - Coerência

incluindo verificação humana na resposta de LLMs

Hora do feedback

Etapa 3:
- Aprende com a classificação do especialista
- Para alinhar respostas futuras com as preferências dele

E assim segue!
- Continua gerando respostas
- Recebe classificações do especialista
- Ajusta o aprendizado

A resposta humana retorna para o LLM

Revisão

Pré-treinamento para aprender conhecimentos gerais de linguagem

Ajuste fino para tarefas específicas

Técnicas de RLHF para melhorar o ajuste fino usando feedback humano

A combinação é supereficaz!

Conclusão do LLM

Processo completo de treinamento de LLMs

Vamos praticar!

Conceitos de Grandes Modelos de Linguagem (LLMs)

Preparing Video For Download...