Métricas para tareas de lenguaje: ROUGE, METEOR, EM

Introducción a los LLMs en Python

Jasmin Ludolf

Senior Data Science Content Developer, DataCamp

Tareas y métricas de LLM

 

Métricas de evaluación para tareas de lenguaje

Introducción a los LLMs en Python

Tareas y métricas de LLM

 

Métricas de evaluación para tareas de lenguaje

Introducción a los LLMs en Python

Tareas y métricas de LLM

 

Métricas de evaluación para tareas de lenguaje

Introducción a los LLMs en Python

ROUGE

  • ROUGE: similitud entre un resumen generado y resúmenes de referencia
    • Mira n-gramas y solapamientos
    • predictions: salidas del LLM
    • references: resúmenes humanos

Comparando the cat sat on the mat y the cat is on the mat

Introducción a los LLMs en Python

ROUGE

rouge = evaluate.load("rouge")
predictions = ["""as we learn more about the frequency and size distribution of 
exoplanets, we are discovering that terrestrial planets are exceedingly common."""]
references = ["""The more we learn about the frequency and size distribution of 
exoplanets, the more confident we are that they are exceedingly common."""]

Puntuaciones ROUGE:

  • rouge1: solapamiento de unigramos
  • rouge2: solapamiento de bigramas
  • rougeL: subsecuencias largas solapadas
Introducción a los LLMs en Python

Salidas de ROUGE

Puntuaciones ROUGE:

  • rouge1: solapamiento de unigramos
  • rouge2: solapamiento de bigramas
  • rougeL: subsecuencias largas solapadas

 

  • Puntuaciones entre 0-1: cuanto más alto, mayor similitud
results = rouge.compute(predictions=predictions,
                         references=references)

print(results)
{'rouge1': 0.7441860465116279, 
'rouge2': 0.4878048780487805, 
'rougeL': 0.6976744186046512, 
'rougeLsum': 0.6976744186046512}
Introducción a los LLMs en Python

METEOR

  • METEOR: usa más rasgos lingüísticos como variaciones de palabras, significados similares y orden de palabras
bleu = evaluate.load("bleu")
meteor = evaluate.load("meteor")


prediction = ["He thought it right and necessary to become a knight-errant, roaming the world in armor, seeking adventures and practicing the deeds he had read about in chivalric tales."] reference = ["He believed it was proper and essential to transform into a knight-errant, traveling the world in armor, pursuing adventures, and enacting the heroic deeds he had encountered in tales of chivalry."]
Introducción a los LLMs en Python

METEOR

results_bleu = bleu.compute(predictions=pred, references=ref)
results_meteor = meteor.compute(predictions=pred, references=ref)
print("Bleu: ", results_bleu['bleu'])
print("Meteor: ", results_meteor['meteor'])
Bleu:  0.19088841781992524
Meteor:  0.5350702240481536
  • Puntuación 0-1: más alto es mejor
Introducción a los LLMs en Python

Preguntas y respuestas

 

Métricas de evaluación para tareas de lenguaje

Introducción a los LLMs en Python

Exact Match (EM)

  • Exact Match (EM): vale 1 si la salida del LLM coincide exactamente con la respuesta de referencia

 

  • Suele usarse junto con la puntuación F1
from evaluate import load
em_metric = load("exact_match")

exact_match = evaluate.load("exact_match")
predictions = ["The cat sat on the mat.",
               "Theaters are great.", 
               "Like comparing oranges and apples."]
references = ["The cat sat on the mat?", 
              "Theaters are great.", 
              "Like comparing apples and oranges."]

results = exact_match.compute(
  references=references, predictions=predictions)
print(results)
{'exact_match': 0.3333333333333333}
Introducción a los LLMs en Python

¡Vamos a practicar!

Introducción a los LLMs en Python

Preparing Video For Download...