Ajustando parâmetros do Llama 3

Trabalhando com Llama 3

Imtihan Ahmed

Machine Learning Engineer

Para que servem os parâmetros?

from llama_cpp import Llama
llm = Llama(model_path="path/to/model.gguf")
output = llm("What are some ways to improve customer retention?")

Control the quality, randomness, and length

Trabalhando com Llama 3

Para que servem os parâmetros?

  • Exemplo: gerar descrições de produtos

professional_site.png

→ Deve ser factual e conciso

 

Site com foco em estilo de vida

 

→ Deve ser envolvente e criativo

Trabalhando com Llama 3

Parâmetros de decodificação do Llama 3

$$

  • Ajustar o comportamento do Llama

$$

  • Usar parâmetros de decodificação para combinar tons

$$

  • Transformar a saída bruta em texto legível

Ajustando o comportamento do Llama com parâmetros

Trabalhando com Llama 3

Parâmetros de decodificação do Llama 3

$$

  • Temperatura: controla a aleatoriedade
  • Top-K: limita a seleção aos tokens mais prováveis
  • Top-P: ajusta a seleção pela probabilidade cumulativa
  • Max tokens: limita o tamanho da resposta

$$

Screenshot 2025-02-26 at 12.51.27.png

Trabalhando com Llama 3

Temperatura

  • Valores geralmente entre 0 e 1

  • Temperatura baixa (ex.: perto de 0):

    • Resposta mais previsível
      Um smartwatch com monitor de batimentos, GPS e bateria de longa duração 
      para monitorar o dia todo.
      
  • Temperatura alta (ex.: perto de 1):
    • Resposta mais criativa
      Seu coach de fitness no pulso — acompanhe cada batimento, cada passo 
      e cada aventura sem limites.
      
Trabalhando com Llama 3

Top-k

  • Limita quantas palavras mais prováveis o Llama pode escolher

  • Valor k baixo (ex.: 1):

    • Resposta mais previsível
      Monitore o condicionamento, ouça música e receba notificações com nosso smartwatch elegante.
      
  • Valor k alto (ex.: 50):

    • Resposta mais diversa
      Viva o futuro com nosso smartwatch de ponta: rastreamento de fitness, streaming de música, notificações personalizáveis, insights sob medida e integração contínua com o smartphone.
      
Trabalhando com Llama 3

Top-p

  • Controla a escolha das palavras com base na confiança

  • Top-p alto (ex.: perto de 1):

    • Respostas mais variadas
      Fique conectado com nosso smartwatch elegante: rastreamento de fitness,
      música e notificações personalizáveis — ideal para esportistas 
      e profissionais atarefados.
      
  • Top-p baixo (ex.: perto de 0):

    • Menos variação
      Smartwatch com rastreamento de fitness e controle de música, ideal para treinos.
      
Trabalhando com Llama 3

Max tokens

  • Usado para limitar o tamanho da resposta
  • A contagem de tokens — unidades de palavras — na resposta

  • max_tokens baixo:

    Fique conectado com nosso smartwatch elegante, com rastreamento de
    fitness e controle de música.
    
  • max_tokens alto:
    Fique conectado com nosso smartwatch elegante: rastreamento de fitness,
    controle de música, notificações personalizáveis e integração perfeita com o smartphone. Monitore sua saúde, acompanhe seu progresso e receba
    alertas no pulso. Perfeito para entusiastas de fitness.
    
Trabalhando com Llama 3

Combinando diferentes parâmetros

llm = Llama(model_path="path/to/model.gguf")

output_concise = llm(
    "Describe an electric car.",

temperature=0.2,
top_k=1,
top_p=0.4,
max_tokens=20
)
Um carro elétrico rápido, ecológico, com grande autonomia e tecnologia de ponta.
Trabalhando com Llama 3

Combinando diferentes parâmetros

output_creative = llm(
    "Describe an electric car.",

temperature=0.8,
top_k=10,
top_p=0.9,
max_tokens=100
)
Deslize para o futuro com um carro elétrico que une velocidade, luxo
e sustentabilidade. Silencioso e potente, ele redefine a estrada ...
Trabalhando com Llama 3

Vamos praticar!

Trabalhando com Llama 3

Preparing Video For Download...