Modelbeoordeling

Generatieve AI-concepten

Daniel Tedesco

Data Lead, Google

Waarom evalueren?

Beoordeel de prestaties en effectiviteit van een model:

  • Meet voortgang
  • Strikte modelvergelijking
  • Benchmark met menselijke prestaties
Generatieve AI-concepten

Generatieve AI’s evalueren

Kwantitatieve metrics

Getallen, die kwantitatieve metrics voorstellen

  • Evaluatiemetrics voor discriminatieve modellen
  • Metrics specifiek voor generatieve modellen

Mensgerichte metrics

Gespreksballonnen, die mensgerichte metrics voorstellen

  • Vergelijking met mensen
  • Intelligente beoordeling
Generatieve AI-concepten

Evaluatie van discriminatieve modellen

Meet prestaties op duidelijk gedefinieerde taken

Voordelen:

  • Algemeen geaccepteerd en begrepen
  • Makkelijk te berekenen en vergelijken

Nadelen:

  • Vangen de subjectieve aard van gegenereerde content niet

Een dartbord met pijltjes bij de roos.

Generatieve AI-concepten

Metrics voor generatieve modellen

Aangepast aan specifieke generatieve taken

Voordelen:

  • Genuanceerde criteria, zoals realisme, diversiteit en nieuwheid
  • Veel bekende metrics

Nadelen:

  • Kunnen veel subjectieve elementen niet vangen
  • Generaliseren vaak niet

Illustraties van koeien.

Generatieve AI-concepten

Vergelijking met mensen

 

Voordelen:

  • Vergelijkt met menselijke prestaties
  • Toont praktische toepasbaarheid

Nadelen:

  • Oneerlijke vergelijking

Een AI die het opneemt tegen een mens.

Generatieve AI-concepten

Prijswinnende AI’s

Menselijke wedstrijden

Prijswinnend AI-gegenereerd kunstwerk, te zien met de gewonnen blauwe lint

Gestandaardiseerde tests voor mensen

Een grafiek van GPT-4-prestaties op verschillende gestandaardiseerde tests. Het presteert beter dan de meeste studenten op bekende tests zoals het Uniform Bar Exam en de GRE.

1 https://twitter.com/colostatefair/status/1565486317839863809, OpenAI
Generatieve AI-concepten

De gouden standaard

Beoordeling door mensen of andere AI’s

Voordelen:

  • Vangt subjectieve aspecten

Nadelen:

  • Traag, duur en lastig te standaardiseren
  • Gevoelig voor menselijke bias en variatie
Generatieve AI-concepten

Turings klassieke test

 

  • Voorgesteld door informaticus Alan Turing
  • Menselijke beoordelaar evalueert AI-gegenereerde content
  • Geslaagd als niet te onderscheiden van mens
  • Maar menselijk gedrag is niet altijd de juiste norm

Een weergave van de Turingtestopzet, met een menselijke beoordelaar, een computerscherm met AI-gegenereerde en menselijk gegenereerde content, die het onderscheidingsproces illustreren.

Generatieve AI-concepten

Laten we oefenen!

Generatieve AI-concepten

Preparing Video For Download...