İnsan Geri Bildiriminden Pekiştirmeli Öğrenme (RLHF)
Mina Parham
AI Engineer




generation_kwargs = {"min_length": -1, # don't ignore the EOS token"top_k": 0.0, # no top-k sampling"top_p": 1.0, "do_sample": True, "pad_token_id": tokenizer.eos_token_id, "max_new_tokens": 32}
Ödül modelini kontrol etme
Çıktıyı (ödül) kontrol etme
reward_model_results.head()
|ID | Yorum |Duygu |Ödül |
|---|----------------------------------------------|----------|-----|
| 1 | Bu etkinlik harikaydı! Çok eğlendim! | Pozitif | 0.9 |
| 2 | Berbat bir deneyim, bir daha gelmem. | Negatif | -0.8|
| 3 | Fena değildi, olağanüstü bir şey yoktu. | Nötr | 0.2 |
| 4 | Etkinlik kötü organize edilmiş ve kaotikti. | Negatif | -0.85|
| 5 | Harika insanlarla müthiş zaman geçirdim! | Pozitif | 0.95|
extreme_positive = reward_model_results[reward_model_results['Reward'] >= 0.9]
extreme_negative = reward_model_results[reward_model_results['Reward'] <= -0.8]
🧑🔬 Dengeli veri kümesi sağlayın
sentiment_distribution = reward_model_results['Sentiment'].value_counts()
📊 Ödül modelini normalleştirin
from sklearn.preprocessing import MinMaxScaler
scaler = MinMaxScaler(feature_range=(-1, 1))
scaler.fit_transform(reward_model_results[['Reward']])
İnsan Geri Bildiriminden Pekiştirmeli Öğrenme (RLHF)