Fine-tuning lanjutan

Konsep Large Language Models (LLM)

Vidhi Chugh

AI strategist and ethicist

Kita di mana?

gambar progres menunjukkan kita di tahap Fine-tuning lanjutan

Reinforcement Learning melalui Umpan Balik Manusia

Pre-training

Fine-tuning

Reinforcement Learning through Human Feedback (RLHF)

Ilustrasi empat orang memberi umpan balik positif dengan emoji dan bintang.

Pre-training

Data teks dalam jumlah besar:
- Situs web, buku, dan artikel
- Arsitektur Transformer
- Mempelajari pola bahasa umum, tata bahasa, dan fakta

Prediksi kata berikutnya
Pemodelan bahasa bertopeng

Proses pre-training untuk membangun LLM

¹ Freepik

Fine-tuning

Pelatihan N-shot

Dataset berlabel kecil untuk tugas terkait

Proses fine-tuning

Mengapa RLHF?

Data pelatihan umum kurang berkualitas
- Noise
- Kesalahan
- Ketidakkonsistenan
- Akurasi menurun

Contoh akurasi menurun:

Dilatih pada data forum diskusi online
Opini dan fakta tidak tervalidasi
Perlu validasi pakar eksternal

Sasaran panahan dengan panah meleset dari titik tengah

Berawal dari kebutuhan fine-tuning

Pre-training
- Mempelajari pola bahasa dasar
- Tidak menangkap kompleksitas kontekstual

Fine-tuning
- Data berlabel berkualitas meningkatkan kinerja

Masuk RLHF!
- Umpan balik manusia

Menyederhanakan RLHF

Keluaran model ditinjau manusia
Model diperbarui berdasar umpan balik

Langkah 1:
- Menerima prompt
- Menghasilkan beberapa respons

sebuah LLM menerima prompt input dan menghasilkan respons

Masuk pakar manusia

Langkah 2:
- Pakar manusia meninjau respons ini
- Memeringkat respons berdasarkan kualitas
  - Akurasi
  - Relevansi
  - Koherensi

menambahkan verifikasi manusia pada respons LLM

Waktunya umpan balik

Langkah 3:
- Belajar dari peringkat pakar
- Menyelaraskan respons ke preferensi mereka ke depan

Berulang terus!
- Tetap menghasilkan respons
- Menerima peringkat pakar
- Menyesuaikan pembelajaran

Umpan balik manusia dikirim kembali ke LLM

Ringkasan

Pre-training untuk belajar pengetahuan bahasa umum

Fine-tuning untuk tugas spesifik

RLHF untuk meningkatkan fine-tuning lewat umpan balik manusia

Kombinasinya sangat efektif!

Menyelesaikan LLM

Proses pelatihan LLM lengkap

Ayo berlatih!

Konsep Large Language Models (LLM)

Preparing Video For Download...