Model değerlendirme

Üretken Yapay Zeka Kavramları

Daniel Tedesco

Data Lead, Google

Neden değerlendirelim?

Bir modelin performansını ve etkinliğini değerlendirin:

İlerlemenin ölçümü
Sıkı model karşılaştırması
İnsan performansına kıyaslama

Üretici YZ'leri değerlendirme

Nicel Metrikler

Nicel metrikleri temsil eden sayılar

Ayrıştırıcı model değerlendirme metrikleri
Üretici modele özgü metrikler

İnsan odaklı Metrikler

İnsan odaklı metrikleri temsil eden konuşma balonları

İnsan performansı karşılaştırması
Akıllı değerlendirme

Ayrıştırıcı model değerlendirme teknikleri

İyi tanımlanmış görevlerde performansı ölçer

Artıları:

Yaygın kabul görür ve anlaşılır
Hesaplaması ve karşılaştırması kolay

Eksileri:

Üretilen içeriğin öznel doğasını yakalamaz

Bullseye'a yakın oklarla hedef tahtası.

Üretici modele özgü metrikler

Belirli üretici görevler için özelleştirilir

Artıları:

Gerçekçilik, çeşitlilik, yenilik gibi nüanslı ölçütler
Birçok iyi bilinen metrik

Eksileri:

Pek çok öznel unsuru yakalayamaz
Çoğu zaman genellenemez

İnek çizimleri.

İnsan performansı karşılaştırması

Artıları:

İnsan yeteneklerine kıyasla ölçer
Pratik uygulanabilirliği gösterir

Eksileri:

Adil olmayan karşılaştırma

Bir insanla yarışan bir YZ.

Ödül kazanan YZ'ler

İnsan Yarışmaları

Mavi kurdele kazanan, YZ ile üretilmiş ödüllü sanat eseri

İnsan Standart Testleri

GPT-4'ün çeşitli standart insan testlerindeki performansını gösteren grafik. Uniform Bar Exam ve GRE gibi bilinen testlerde çoğu öğrenciyi geride bırakır.

¹ https://twitter.com/colostatefair/status/1565486317839863809, OpenAI

Altın standart

İnsanlar veya diğer YZ'lerce akıllı değerlendirme

Artıları:

Öznel yönleri yakalar

Eksileri:

Yavaş, maliyetli ve standartlaştırması zor
İnsan önyargılarına ve tutarsızlığa açık

Turing'in klasik testi

Bilgisayar bilimci Alan Turing tarafından önerildi
İnsan değerlendirici YZ çıktısını yargılar
Değerlendirici insanla YZ'yi ayırt edemezse geçer
Ancak insan davranışı her zaman doğru ölçüt değildir

Turing testinin kurulumu: bir insan değerlendirici, YZ tarafından üretilen içerik ve insan tarafından üretilen içeriği ayırt etmeye çalışıyor.

Hadi pratik yapalım!

Üretken Yapay Zeka Kavramları