Model ölçütleri ve ayarlamalar

İnsan Geri Bildiriminden Pekiştirmeli Öğrenme (RLHF)

Mina Parham

AI Engineer

Neden bir referans modeli kullanılır?

  • Anlamsız çıktılar

Bir dizi emoji.

İnsan Geri Bildiriminden Pekiştirmeli Öğrenme (RLHF)

Model çıktısını kontrol etme

Yanıt kontrolü içeren RLHF süreci diyagramı.

İnsan Geri Bildiriminden Pekiştirmeli Öğrenme (RLHF)

Çözüm: KL ayrışımı

KL ayrışımı içeren RLHF süreci diyagramı.

İnsan Geri Bildiriminden Pekiştirmeli Öğrenme (RLHF)

Çözüm: KL ayrışımı

  • Ceza, ödül modeline eklenir
  • Model ilgisiz çıktılar üretirse ceza onu yönlendirir
  • KL ayrışımı, mevcut modelle ödül modelini karşılaştırır

Bir terazi simgesi.

  • 0 ile 10 arasında, asla negatif değil
İnsan Geri Bildiriminden Pekiştirmeli Öğrenme (RLHF)

Parametreleri ayarlama

generation_kwargs = {

"min_length": -1, # don't ignore the EOS token
"top_k": 0.0, # no top-k sampling
"top_p": 1.0, "do_sample": True, "pad_token_id": tokenizer.eos_token_id, "max_new_tokens": 32}

 

  • Parametreler politika modeline aktarılır
İnsan Geri Bildiriminden Pekiştirmeli Öğrenme (RLHF)

Ödül modelini kontrol etme

  • Ödül modelini kontrol etme

  • Çıktıyı (ödül) kontrol etme

reward_model_results.head()
|ID | Yorum                                        |Duygu     |Ödül |
|---|----------------------------------------------|----------|-----|
| 1 | Bu etkinlik harikaydı! Çok eğlendim!         | Pozitif  | 0.9 |
| 2 | Berbat bir deneyim, bir daha gelmem.         | Negatif  | -0.8|
| 3 | Fena değildi, olağanüstü bir şey yoktu.      | Nötr     | 0.2 |
| 4 | Etkinlik kötü organize edilmiş ve kaotikti.  | Negatif  | -0.85|
| 5 | Harika insanlarla müthiş zaman geçirdim!     | Pozitif  | 0.95|
İnsan Geri Bildiriminden Pekiştirmeli Öğrenme (RLHF)

Ödül modelini kontrol etme

  • 👍 👎 Aşırı uçları kontrol edin
    extreme_positive = reward_model_results[reward_model_results['Reward'] >= 0.9]
    extreme_negative = reward_model_results[reward_model_results['Reward'] <= -0.8]
    
  • 🧑‍🔬 Dengeli veri kümesi sağlayın

    sentiment_distribution = reward_model_results['Sentiment'].value_counts()
    
  • 📊 Ödül modelini normalleştirin

    from sklearn.preprocessing import MinMaxScaler
    scaler = MinMaxScaler(feature_range=(-1, 1))
    scaler.fit_transform(reward_model_results[['Reward']])
    
İnsan Geri Bildiriminden Pekiştirmeli Öğrenme (RLHF)

Hadi pratik yapalım!

İnsan Geri Bildiriminden Pekiştirmeli Öğrenme (RLHF)

Preparing Video For Download...