Modellevaluierung

Konzeptuelle Einführung in generative KI

Daniel Tedesco

Data Lead, Google

Warum überhaupt evaluieren?

Beurteilen der Leistung und Effektivität eines Modells:

Fortschrittsmessung
Strenger Modellvergleich
Benchmarking der menschlichen Leistung

Evaluierung generativer KIs

Quantitative Metriken

Zahlen, die quantitative Metriken darstellen

Diskriminative Modellevaluierungsmetriken
Generative modellspezifische Metriken

Menschenzentrierte Metriken

Sprechblasen, die menschenzentrierte Metriken darstellen

Vergleiche mit der menschlichen Leistung
Intelligente Evaluierung

Diskriminative Modellbewertungstechniken

Leistung an klar definierten Aufgaben messen

Vorteile

Weithin akzeptiert und verstanden
Leicht zu berechnen und zu vergleichen

Nachteile

Subjektive Natur der generierten Inhalte wird nicht erfasst

Eine Dartscheibe mit Dartpfeilen in der Nähe des Bullseye

Generative modellspezifische Metriken

Maßgeschneidert für bestimmte generative Aufgaben

Vorteile

Differenzierte Kriterien wie Realismus, Vielfalt und Neuheit
Viele bekannte Metriken

Nachteile

Können viele subjektive Elemente nicht erfassen
Können oft nicht generalisieren

Illustrationen von Kühen

Vergleiche mit der menschlichen Leistung

Vorteile

Vergleiche mit menschlichen Fähigkeiten
Demonstriert praktische Anwendbarkeit

Nachteile

Unfairer Vergleich

Eine KI, die gegen einen Menschen antritt.

Preisgekrönte KIs

Menschliche Wettbewerbe

Preisgekröntes, KI-generiertes Kunstwerk mit goldbedrucktem Band

Standardisierte Tests für Menschen

Ein Diagramm, das die Leistung von GPT-4 in verschiedenen standardisierten Tests für Menschen zeigt. Es übertrifft die meisten Schülerinnen und Schüler in bekannten Tests wie dem US-Anwaltsexamen und Hochschulaufnahmeprüfungen.

¹ https://twitter.com/colostatefair/status/1565486317839863809, OpenAI

Der Goldstandard

Intelligente Evaluierung durch Menschen oder andere KIs

Vorteile

Erfasst subjektive Aspekte

Nachteile

Langsam, kostspielig und schwer zu standardisieren
Unterliegt menschlicher Voreingenommenheit und Unregelmäßigkeiten

Turings klassischer Test

Vorgeschlagen vom Informatiker Alan Turing
Mensch evaluiert KI-generierte Inhalte
Bestanden, wenn Mensch nicht zwischen KI und Mensch unterscheiden kann
Aber: menschliches Verhalten nicht immer richtiger Maßstab

Eine Darstellung des Turing-Testaufbaus mit einem evaluierenden Menschen, einem Computerbildschirm, der KI-generierte Inhalte anzeigt, und einem von Menschen generierten Inhalt, der den Prozess der Unterscheidung zwischen beiden veranschaulicht

Lass uns üben!

Konzeptuelle Einführung in generative KI