Métricas para tarefas de linguagem: perplexidade e BLEU

Introdução a LLMs em Python

Jasmin Ludolf

Senior Data Science Content Developer, DataCamp

Tarefas e métricas em LLMs

Métricas de avaliação para tarefas de linguagem

Perplexidade

Capacidade do modelo de prever a próxima palavra com precisão e confiança
Perplexidade menor = maior confiança

input_text = "Latest research findings in Antarctica show"

generated_text = "Latest research findings in Antarctica show that the ice sheet 
is melting faster than previously thought."


# Encode the prompt, generate text and decode it
input_text_ids = tokenizer.encode(input_text, return_tensors="pt")
output = model.generate(input_text_ids, max_length=20)
generated_text = tokenizer.decode(output[0], skip_special_tokens=True)

Saída de perplexidade

perplexity = evaluate.load("perplexity", module_type="metric")
results = perplexity.compute(predictions=generated_text, model_id="gpt2")

print(results)

{'perplexities': [245.63299560546875, 520.3106079101562, ....], 
 'mean_perplexity': 2867.7229790460497}

print(results["mean_perplexity"])

2867.7229790460497

Compare com os resultados de baseline

BLEU

Mede a qualidade da tradução contra referências humanas
Predições: saídas do LLM
Referências: textos humanos

bleu = evaluate.load("bleu")


input_text = "Latest research findings in Antarctica show"
references = [["Latest research findings in Antarctica show significant ice loss due to 
               climate change.", "Latest research findings in Antarctica show that the ice 
               sheet is melting faster than previously thought."]]
generated_text = "Latest research findings in Antarctica show that the ice sheet is melting 
               faster than previously thought."

Saída do BLEU

results = bleu.compute(predictions=[generated_text], references=references)
print(results)

{'bleu': 1.0, 
 'precisions': [1.0, 1.0, 1.0, 1.0], 
 'brevity_penalty': 1.0, 
 'length_ratio': 1.2142857142857142, 
 'translation_length': 17, 
 'reference_length': 14}

Pontuação de 0 a 1: mais perto de 1 = maior similaridade

Vamos praticar!

Introdução a LLMs em Python