Model değerlendirme

Üretken Yapay Zeka Kavramları

Daniel Tedesco

Data Lead, Google

Neden değerlendirelim?

Bir modelin performansını ve etkinliğini değerlendirin:

  • İlerlemenin ölçümü
  • Sıkı model karşılaştırması
  • İnsan performansına kıyaslama
Üretken Yapay Zeka Kavramları

Üretici YZ'leri değerlendirme

Nicel Metrikler

Nicel metrikleri temsil eden sayılar

  • Ayrıştırıcı model değerlendirme metrikleri
  • Üretici modele özgü metrikler

İnsan odaklı Metrikler

İnsan odaklı metrikleri temsil eden konuşma balonları

  • İnsan performansı karşılaştırması
  • Akıllı değerlendirme
Üretken Yapay Zeka Kavramları

Ayrıştırıcı model değerlendirme teknikleri

İyi tanımlanmış görevlerde performansı ölçer

Artıları:

  • Yaygın kabul görür ve anlaşılır
  • Hesaplaması ve karşılaştırması kolay

Eksileri:

  • Üretilen içeriğin öznel doğasını yakalamaz

Bullseye'a yakın oklarla hedef tahtası.

Üretken Yapay Zeka Kavramları

Üretici modele özgü metrikler

Belirli üretici görevler için özelleştirilir

Artıları:

  • Gerçekçilik, çeşitlilik, yenilik gibi nüanslı ölçütler
  • Birçok iyi bilinen metrik

Eksileri:

  • Pek çok öznel unsuru yakalayamaz
  • Çoğu zaman genellenemez

İnek çizimleri.

Üretken Yapay Zeka Kavramları

İnsan performansı karşılaştırması

 

Artıları:

  • İnsan yeteneklerine kıyasla ölçer
  • Pratik uygulanabilirliği gösterir

Eksileri:

  • Adil olmayan karşılaştırma

Bir insanla yarışan bir YZ.

Üretken Yapay Zeka Kavramları

Ödül kazanan YZ'ler

İnsan Yarışmaları

Mavi kurdele kazanan, YZ ile üretilmiş ödüllü sanat eseri

İnsan Standart Testleri

GPT-4'ün çeşitli standart insan testlerindeki performansını gösteren grafik. Uniform Bar Exam ve GRE gibi bilinen testlerde çoğu öğrenciyi geride bırakır.

1 https://twitter.com/colostatefair/status/1565486317839863809, OpenAI
Üretken Yapay Zeka Kavramları

Altın standart

İnsanlar veya diğer YZ'lerce akıllı değerlendirme

Artıları:

  • Öznel yönleri yakalar

Eksileri:

  • Yavaş, maliyetli ve standartlaştırması zor
  • İnsan önyargılarına ve tutarsızlığa açık
Üretken Yapay Zeka Kavramları

Turing'in klasik testi

 

  • Bilgisayar bilimci Alan Turing tarafından önerildi
  • İnsan değerlendirici YZ çıktısını yargılar
  • Değerlendirici insanla YZ'yi ayırt edemezse geçer
  • Ancak insan davranışı her zaman doğru ölçüt değildir

Turing testinin kurulumu: bir insan değerlendirici, YZ tarafından üretilen içerik ve insan tarafından üretilen içeriği ayırt etmeye çalışıyor.

Üretken Yapay Zeka Kavramları

Hadi pratik yapalım!

Üretken Yapay Zeka Kavramları

Preparing Video For Download...