Ödül modellerine genel bakış

İnsan Geri Bildiriminden Pekiştirmeli Öğrenme (RLHF)

Mina Parham

AI Engineer

Şu ana kadarki süreç

Şimdiye kadar ele alınan RLHF sürecini gösteren bir diyagram.

İnsan Geri Bildiriminden Pekiştirmeli Öğrenme (RLHF)

Şu ana kadarki süreç

Şu ana kadarki RLHF sürecini ve sonraki adımı (ödül modelleri) gösteren ok içeren bir diyagram.

İnsan Geri Bildiriminden Pekiştirmeli Öğrenme (RLHF)

Ödül modeli nedir?

 

  Bir yapay zekâ modelinden çıktıya giden oku gösteren bir diyagram.

İnsan Geri Bildiriminden Pekiştirmeli Öğrenme (RLHF)

Ödül modeli nedir?

  • Model, ajanı bilgilendirir
  • Ajan, ödülü en üst düzeye çıkarmak için modeli değerlendirir

Ödül şemasına göre bilgilendirilen bir model ve ajanı ile çıktıya giden oku gösteren bir diyagram.

İnsan Geri Bildiriminden Pekiştirmeli Öğrenme (RLHF)

Reward trainer kullanımı

from trl import RewardTrainer, RewardConfig

from transformers import AutoModelForSequenceClassification, AutoTokenizer
from datasets import load_dataset
# Önceden eğitilmiş modeli ve belirteçleyiciyi yükleyin
model = AutoModelForSequenceClassification.from_pretrained("gpt2", num_labels=1)
tokenizer = AutoTokenizer.from_pretrained("gpt2")

# Gerekli biçimde veri kümesini yükleyin dataset = load_dataset("path/to/dataset")
İnsan Geri Bildiriminden Pekiştirmeli Öğrenme (RLHF)

Ödül modelini eğitme

# Eğitim argümanlarını tanımlayın
training_args = RewardConfig(

output_dir="path/to/output/dir",
per_device_train_batch_size=8, per_device_eval_batch_size=8,
num_train_epochs=3,
learning_rate=1e-3
)
İnsan Geri Bildiriminden Pekiştirmeli Öğrenme (RLHF)

Ödül modelini eğitme

# RewardTrainer'ı başlatın
trainer = RewardTrainer(
    model=model,
    args=training_args,
    train_dataset=dataset["train"],
    eval_dataset=dataset["validation"],
    tokenizer=tokenizer,
)
# Ödül modelini eğitin
trainer.train()
İnsan Geri Bildiriminden Pekiştirmeli Öğrenme (RLHF)

Hadi pratik yapalım!

İnsan Geri Bildiriminden Pekiştirmeli Öğrenme (RLHF)

Preparing Video For Download...