Preocupações e considerações sobre os dados

Conceitos de Grandes Modelos de Linguagem (LLMs)

Vidhi Chugh

AI strategist and ethicist

Considerações sobre os dados

 

Considerações sobre os dados

 

  • Volume de dados e capacidade de computação
  • Qualidade dos dados
  • Rotulagem
  • Vieses
  • Privacidade
Conceitos de Grandes Modelos de Linguagem (LLMs)

Volume de dados e capacidade de computação

  • Os LLMs precisam de muitos dados
    • Como uma criança aprendendo a falar
    • 570 GB, ~1,3 milhão de livros

 

Criança aprendendo a falar

1 Freepik
Conceitos de Grandes Modelos de Linguagem (LLMs)

Volume de dados e capacidade de computação

  • Os LLMs precisam de muitos dados
    • Como uma criança aprendendo a falar
    • 570 GB, ~1,3 milhão de livros

 

  • Alta capacidade de computação; pensar no consumo de energia

 

  • Pode custar milhões de dólares!

Homem trabalhando em um computador conectado a um servidor grande

Conceitos de Grandes Modelos de Linguagem (LLMs)

Qualidade dos dados

  • Dados de qualidade são essenciais

 

  • Dados precisos = melhor aprendizado = qualidade de resposta aprimorada = maior confiança

 

  • Uma criança aprendendo a falar
    • Entra bobagem -> sai bobagem

resultados de baixa qualidade se treinarmos LLMs com dados cheios de erros ou gramática ruim

Conceitos de Grandes Modelos de Linguagem (LLMs)

Dados rotulados

  • Rótulos de dados corretos: aprendizado preciso, generalização de padrões, respostas precisas

  • Trabalhoso: atribuir o rótulo correto a cada artigo

Equipe trabalhando em computadores para rotular dados

  • Rótulos incorretos afetam o desempenho do modelo
  • Corrigir erros: identificar -> analisar -> iterar
Conceitos de Grandes Modelos de Linguagem (LLMs)

Vieses nos dados

  • Influência de estereótipos sociais
  • Falta de diversidade nos dados de treinamento
  • Discriminação e resultados injustos

 

  • Identificar e lidar com os dados enviesados
    • Avaliar desequilíbrios de dados
    • Promover a diversidade
    • Técnicas para evitar vieses: exemplos mais diversificados

Vieses nos dados

  • Exemplo:

    • “Alguém da enfermagem veio aqui? Sim…” -> “a enfermeira veio”
Conceitos de Grandes Modelos de Linguagem (LLMs)

Privacidade de dados

  • Cumprimento das normas de privacidade e proteção de dados

 

  • A privacidade é uma preocupação
    • Treinar com dados sem permissão pode levar a uma violação
    • Prejuízos legais, financeiros e à reputação
  • Informações confidenciais ou de identificação pessoal (IIP)

 

  • Obter permissão

Privacidade de dados

Conceitos de Grandes Modelos de Linguagem (LLMs)

Vamos praticar!

Conceitos de Grandes Modelos de Linguagem (LLMs)

Preparing Video For Download...