Fine-tuning lanjutan

Konsep Large Language Models (LLM)

Vidhi Chugh

AI strategist and ethicist

Kita di mana?

gambar progres menunjukkan kita di tahap Fine-tuning lanjutan

Konsep Large Language Models (LLM)

Reinforcement Learning melalui Umpan Balik Manusia

 

  • Pre-training

 

  • Fine-tuning

 

  • Reinforcement Learning through Human Feedback (RLHF)

 

Ilustrasi empat orang memberi umpan balik positif dengan emoji dan bintang.

Konsep Large Language Models (LLM)

Pre-training

  • Data teks dalam jumlah besar:
    • Situs web, buku, dan artikel
    • Arsitektur Transformer
    • Mempelajari pola bahasa umum, tata bahasa, dan fakta

 

  • Prediksi kata berikutnya
  • Pemodelan bahasa bertopeng

Proses pre-training untuk membangun LLM

1 Freepik
Konsep Large Language Models (LLM)

Fine-tuning

 

  • Pelatihan N-shot

 

  • Dataset berlabel kecil untuk tugas terkait

Proses fine-tuning

Konsep Large Language Models (LLM)

Mengapa RLHF?

  • Data pelatihan umum kurang berkualitas
    • Noise
    • Kesalahan
    • Ketidakkonsistenan
    • Akurasi menurun

Contoh akurasi menurun:

  • Dilatih pada data forum diskusi online
  • Opini dan fakta tidak tervalidasi
  • Perlu validasi pakar eksternal

 

Sasaran panahan dengan panah meleset dari titik tengah

Konsep Large Language Models (LLM)

Berawal dari kebutuhan fine-tuning

  • Pre-training
    • Mempelajari pola bahasa dasar
    • Tidak menangkap kompleksitas kontekstual

 

  • Fine-tuning
    • Data berlabel berkualitas meningkatkan kinerja

 

  • Masuk RLHF!
    • Umpan balik manusia
Konsep Large Language Models (LLM)

Menyederhanakan RLHF

 

  • Keluaran model ditinjau manusia
  • Model diperbarui berdasar umpan balik

 

  • Langkah 1:
    • Menerima prompt
    • Menghasilkan beberapa respons

 

 

sebuah LLM menerima prompt input dan menghasilkan respons

Konsep Large Language Models (LLM)

Masuk pakar manusia

 

  • Langkah 2:
    • Pakar manusia meninjau respons ini
    • Memeringkat respons berdasarkan kualitas
      • Akurasi
      • Relevansi
      • Koherensi

menambahkan verifikasi manusia pada respons LLM

Konsep Large Language Models (LLM)

Waktunya umpan balik

  • Langkah 3:
    • Belajar dari peringkat pakar
    • Menyelaraskan respons ke preferensi mereka ke depan

 

  • Berulang terus!
    • Tetap menghasilkan respons
    • Menerima peringkat pakar
    • Menyesuaikan pembelajaran

 

 

Umpan balik manusia dikirim kembali ke LLM

Konsep Large Language Models (LLM)

Ringkasan

  • Pre-training untuk belajar pengetahuan bahasa umum

 

  • Fine-tuning untuk tugas spesifik

 

  • RLHF untuk meningkatkan fine-tuning lewat umpan balik manusia

 

  • Kombinasinya sangat efektif!
Konsep Large Language Models (LLM)

Menyelesaikan LLM

Proses pelatihan LLM lengkap

Konsep Large Language Models (LLM)

Ayo berlatih!

Konsep Large Language Models (LLM)

Preparing Video For Download...