Modellevaluierung

Konzeptuelle Einführung in generative KI

Daniel Tedesco

Data Lead, Google

Warum überhaupt evaluieren?

Beurteilen der Leistung und Effektivität eines Modells:

  • Fortschrittsmessung
  • Strenger Modellvergleich
  • Benchmarking der menschlichen Leistung
Konzeptuelle Einführung in generative KI

Evaluierung generativer KIs

Quantitative Metriken

Zahlen, die quantitative Metriken darstellen

  • Diskriminative Modellevaluierungsmetriken
  • Generative modellspezifische Metriken

Menschenzentrierte Metriken

Sprechblasen, die menschenzentrierte Metriken darstellen

  • Vergleiche mit der menschlichen Leistung
  • Intelligente Evaluierung
Konzeptuelle Einführung in generative KI

Diskriminative Modellbewertungstechniken

Leistung an klar definierten Aufgaben messen

Vorteile

  • Weithin akzeptiert und verstanden
  • Leicht zu berechnen und zu vergleichen

Nachteile

  • Subjektive Natur der generierten Inhalte wird nicht erfasst

Eine Dartscheibe mit Dartpfeilen in der Nähe des Bullseye

Konzeptuelle Einführung in generative KI

Generative modellspezifische Metriken

Maßgeschneidert für bestimmte generative Aufgaben

Vorteile

  • Differenzierte Kriterien wie Realismus, Vielfalt und Neuheit
  • Viele bekannte Metriken

Nachteile

  • Können viele subjektive Elemente nicht erfassen
  • Können oft nicht generalisieren

Illustrationen von Kühen

Konzeptuelle Einführung in generative KI

Vergleiche mit der menschlichen Leistung

 

Vorteile

  • Vergleiche mit menschlichen Fähigkeiten
  • Demonstriert praktische Anwendbarkeit

Nachteile

  • Unfairer Vergleich

Eine KI, die gegen einen Menschen antritt.

Konzeptuelle Einführung in generative KI

Preisgekrönte KIs

Menschliche Wettbewerbe

Preisgekröntes, KI-generiertes Kunstwerk mit goldbedrucktem Band

Standardisierte Tests für Menschen

Ein Diagramm, das die Leistung von GPT-4 in verschiedenen standardisierten Tests für Menschen zeigt. Es übertrifft die meisten Schülerinnen und Schüler in bekannten Tests wie dem US-Anwaltsexamen und Hochschulaufnahmeprüfungen.

1 https://twitter.com/colostatefair/status/1565486317839863809, OpenAI
Konzeptuelle Einführung in generative KI

Der Goldstandard

Intelligente Evaluierung durch Menschen oder andere KIs

Vorteile

  • Erfasst subjektive Aspekte

Nachteile

  • Langsam, kostspielig und schwer zu standardisieren
  • Unterliegt menschlicher Voreingenommenheit und Unregelmäßigkeiten
Konzeptuelle Einführung in generative KI

Turings klassischer Test

 

  • Vorgeschlagen vom Informatiker Alan Turing
  • Mensch evaluiert KI-generierte Inhalte
  • Bestanden, wenn Mensch nicht zwischen KI und Mensch unterscheiden kann
  • Aber: menschliches Verhalten nicht immer richtiger Maßstab

Eine Darstellung des Turing-Testaufbaus mit einem evaluierenden Menschen, einem Computerbildschirm, der KI-generierte Inhalte anzeigt, und einem von Menschen generierten Inhalt, der den Prozess der Unterscheidung zwischen beiden veranschaulicht

Konzeptuelle Einführung in generative KI

Lass uns üben!

Konzeptuelle Einführung in generative KI

Preparing Video For Download...