Metriken für Sprachaufgaben: ROUGE, METEOR, EM

Einführung in LLMs mit Python

Jasmin Ludolf

Senior Data Science Content Developer, DataCamp

LLM-Aufgaben und Metriken

Bewertungskriterien für Sprachaufgaben

LLM-Aufgaben und Metriken

Bewertungskriterien für Sprachaufgaben

LLM-Aufgaben und Metriken

Bewertungskriterien für Sprachaufgaben

ROUGE

ROUGE: Wie ähnlich ist die zusammengefasste Version den auf Referenztexten basierenden Zusammenfassungen?
- Schaut sich n-Gramme und Überschneidungen an
- predictions: LLM-Ausgaben
- references: von Menschen erstellte Zusammenfassungen

Vergleich zwischen „The cat sat on the mat“ und „The cat is on the mat“

ROUGE

rouge = evaluate.load("rouge")
predictions = ["""as we learn more about the frequency and size distribution of 
exoplanets, we are discovering that terrestrial planets are exceedingly common."""]
references = ["""The more we learn about the frequency and size distribution of 
exoplanets, the more confident we are that they are exceedingly common."""]

ROUGE-Scores:

rouge1: Unigramm-Überschneidung
rouge2: Bigramm-Überschneidung
rougeL: lange, sich überschneidende Teilsequenzen

ROUGE-Ausgaben

ROUGE-Scores:

rouge1: Unigramm-Überschneidung
rouge2: Bigramm-Überschneidung
rougeL: lange, sich überschneidende Teilsequenzen

Scores zwischen 0 und 1: je höher, desto größer die Ähnlichkeit

results = rouge.compute(predictions=predictions,
                         references=references)

print(results)

{'rouge1': 0.7441860465116279, 
'rouge2': 0.4878048780487805, 
'rougeL': 0.6976744186046512, 
'rougeLsum': 0.6976744186046512}

METEOR

METEOR: mehr sprachliche Merkmale wie Wortvarianten, ähnliche Bedeutungen und Wortstellung

bleu = evaluate.load("bleu")
meteor = evaluate.load("meteor")


prediction = ["He thought it right and necessary to become a knight-errant, roaming 
              the world in armor, seeking adventures and practicing the deeds he 
              had read about in chivalric tales."]

reference = ["He believed it was proper and essential to transform into a 
             knight-errant, traveling the world in armor, pursuing adventures, and 
             enacting the heroic deeds he had encountered in tales of chivalry."]

METEOR

results_bleu = bleu.compute(predictions=pred, references=ref)
results_meteor = meteor.compute(predictions=pred, references=ref)
print("Bleu: ", results_bleu['bleu'])
print("Meteor: ", results_meteor['meteor'])

Bleu:  0.19088841781992524
Meteor:  0.5350702240481536

0-1 Score: je höher, desto besser

Antwortgenerierung (Question answering)

Bewertungskriterien für Sprachaufgaben

Exact Match (EM)

Exact Match (EM): 1, wenn Ausgabe eines LLM genau mit Referenzantwort übereinstimmt

Normalerweise in Kombination mit F1-Score

from evaluate import load
em_metric = load("exact_match")

exact_match = evaluate.load("exact_match")
predictions = ["The cat sat on the mat.",
               "Theaters are great.", 
               "Like comparing oranges and apples."]
references = ["The cat sat on the mat?", 
              "Theaters are great.", 
              "Like comparing apples and oranges."]

results = exact_match.compute(
  references=references, predictions=predictions)
print(results)

{'exact_match': 0.3333333333333333}

Lass uns üben!

Einführung in LLMs mit Python