Evaluasi model

Konsep Generative AI

Daniel Tedesco

Data Lead, Google

Mengapa perlu evaluasi?

Nilai kinerja dan efektivitas model:

  • Ukur progres
  • Perbandingan model yang ketat
  • Patokan kinerja manusia
Konsep Generative AI

Evaluasi AI generatif

Metrik Kuantitatif

Angka, mewakili metrik kuantitatif

  • Metrik evaluasi model diskriminatif
  • Metrik khusus model generatif

Metrik Berpusat pada Manusia

Gelembung percakapan, mewakili metrik berpusat pada manusia

  • Perbandingan kinerja manusia
  • Evaluasi cerdas
Konsep Generative AI

Teknik evaluasi model diskriminatif

Ukur kinerja pada tugas yang terdefinisi jelas

Kelebihan:

  • Luas diterima dan dipahami
  • Mudah dihitung dan dibandingkan

Kekurangan:

  • Tidak menangkap sifat subjektif konten yang dihasilkan

Papan target dengan anak panah dekat bullseye.

Konsep Generative AI

Metrik khusus model generatif

Disesuaikan untuk tugas generatif tertentu

Kelebihan:

  • Kriteria bernuansa: realisme, keragaman, kebaruan
  • Banyak metrik terkenal

Kekurangan:

  • Tidak dapat menangkap banyak elemen subjektif
  • Sering tidak terumumkan

Ilustrasi sapi.

Konsep Generative AI

Perbandingan dengan kinerja manusia

 

Kelebihan:

  • Tolok ukur terhadap kemampuan manusia
  • Menunjukkan penerapan praktis

Kekurangan:

  • Perbandingan tidak adil

AI bersaing dengan manusia.

Konsep Generative AI

AI pemenang penghargaan

Kompetisi Manusia

Karya seni buatan AI yang memenangkan penghargaan, ditampilkan dengan pita biru kemenangannya

Ujian Standar Manusia

Bagan yang menunjukkan kinerja GPT-4 pada beberapa ujian standar manusia. Model ini melampaui sebagian besar peserta pada ujian terkenal seperti Uniform Bar Exam dan GRE.

1 https://twitter.com/colostatefair/status/1565486317839863809, OpenAI
Konsep Generative AI

Standar emas

Evaluasi cerdas oleh manusia atau AI lain

Kelebihan:

  • Menangkap aspek subjektif

Kekurangan:

  • Lambat, mahal, dan sulit distandardisasi
  • Rentan bias dan ketidakteraturan manusia
Konsep Generative AI

Uji klasik Turing

 

  • Diusulkan oleh ilmuwan komputer Alan Turing
  • Evaluator manusia menilai konten yang dibuat AI
  • Lulus jika evaluator tidak bisa membedakan AI dari manusia
  • Namun perilaku manusia bukan selalu standar yang tepat

Ilustrasi pengaturan uji Turing, dengan evaluator manusia, layar komputer berisi konten buatan AI dan konten buatan manusia, menggambarkan proses membedakan keduanya.

Konsep Generative AI

Ayo berlatih!

Konsep Generative AI

Preparing Video For Download...