Mengevaluasi respons

Memahami Prompt Engineering

Alex Banks

Founder & Educator

Pengantar evaluasi respons

Setiap alat punya keterbatasan. ChatGPT punya knowledge cut off. Solusi: prompt yang cerdas.

1 Sumber gambar: DALLE-3
Memahami Prompt Engineering

Empat pilar evaluasi

LARF

  • Logical consistency
  • Accuracy
  • Relevance
  • Factual correctness

Orang tua bahagia dan tersenyum

1 Sumber gambar: DALLE-3
Memahami Prompt Engineering

Konsistensi logis - pemeriksaan koherensi

Orang bekerja pada panel surya dan prompt "apa manfaat dan kekurangan energi surya"

1 Sumber gambar: DALLE-3
Memahami Prompt Engineering

Konsistensi logis - pemeriksaan koherensi

Orang bekerja pada panel surya dan prompt "apa manfaat dan kekurangan energi surya"

Daftar manfaat

1 Sumber gambar: DALLE-3
Memahami Prompt Engineering

Konsistensi logis - pemeriksaan koherensi

Orang bekerja pada panel surya dan prompt "apa manfaat dan kekurangan energi surya"

Daftar kekurangan

1 Sumber gambar: DALLE-3
Memahami Prompt Engineering

Akurasi dan kecenderungan halusinasi

Halusinasi -> menyampaikan jawaban salah dengan yakin.  

Jawaban salah untuk pertanyaan "siapa orang pertama yang berjalan di bulan"

1 Sumber gambar: DALLE-3
Memahami Prompt Engineering

Relevansi - sesuai konteks

Relevansi -> respons selaras dengan konteks dan maksud prompt.   Apa objek wisata teratas di Paris

1 Sumber gambar: DALLE-3
Memahami Prompt Engineering

Relevansi - sesuai konteks

Apa objek wisata teratas di Paris dengan jawaban salah disorot

1 Sumber gambar: DALLE-3
Memahami Prompt Engineering

Kebenaran faktual setelah tanggal cutoff

Apakah uji coba pendapatan dasar universal berhasil menurunkan kemiskinan? Berikan jawaban Anda hanya dengan merujuk dan mengutip sumber tepercaya.

Memahami Prompt Engineering

Kebenaran faktual setelah tanggal cutoff

Tanggal cutoff ChatGPT

1 Sumber gambar: ChatGPT
Memahami Prompt Engineering

Ayo berlatih!

Memahami Prompt Engineering

Preparing Video For Download...