Modelbeoordeling

Generatieve AI-concepten

Daniel Tedesco

Data Lead, Google

Waarom evalueren?

Beoordeel de prestaties en effectiviteit van een model:

Meet voortgang
Strikte modelvergelijking
Benchmark met menselijke prestaties

Generatieve AI’s evalueren

Kwantitatieve metrics

Getallen, die kwantitatieve metrics voorstellen

Evaluatiemetrics voor discriminatieve modellen
Metrics specifiek voor generatieve modellen

Mensgerichte metrics

Gespreksballonnen, die mensgerichte metrics voorstellen

Vergelijking met mensen
Intelligente beoordeling

Evaluatie van discriminatieve modellen

Meet prestaties op duidelijk gedefinieerde taken

Voordelen:

Algemeen geaccepteerd en begrepen
Makkelijk te berekenen en vergelijken

Nadelen:

Vangen de subjectieve aard van gegenereerde content niet

Een dartbord met pijltjes bij de roos.

Metrics voor generatieve modellen

Aangepast aan specifieke generatieve taken

Voordelen:

Genuanceerde criteria, zoals realisme, diversiteit en nieuwheid
Veel bekende metrics

Nadelen:

Kunnen veel subjectieve elementen niet vangen
Generaliseren vaak niet

Illustraties van koeien.

Vergelijking met mensen

Voordelen:

Vergelijkt met menselijke prestaties
Toont praktische toepasbaarheid

Nadelen:

Oneerlijke vergelijking

Een AI die het opneemt tegen een mens.

Prijswinnende AI’s

Menselijke wedstrijden

Prijswinnend AI-gegenereerd kunstwerk, te zien met de gewonnen blauwe lint

Gestandaardiseerde tests voor mensen

Een grafiek van GPT-4-prestaties op verschillende gestandaardiseerde tests. Het presteert beter dan de meeste studenten op bekende tests zoals het Uniform Bar Exam en de GRE.

¹ https://twitter.com/colostatefair/status/1565486317839863809, OpenAI

De gouden standaard

Beoordeling door mensen of andere AI’s

Voordelen:

Vangt subjectieve aspecten

Nadelen:

Traag, duur en lastig te standaardiseren
Gevoelig voor menselijke bias en variatie

Turings klassieke test

Voorgesteld door informaticus Alan Turing
Menselijke beoordelaar evalueert AI-gegenereerde content
Geslaagd als niet te onderscheiden van mens
Maar menselijk gedrag is niet altijd de juiste norm

Een weergave van de Turingtestopzet, met een menselijke beoordelaar, een computerscherm met AI-gegenereerde en menselijk gegenereerde content, die het onderscheidingsproces illustreren.

Laten we oefenen!

Generatieve AI-concepten