Ödül modellerine genel bakış

İnsan Geri Bildiriminden Pekiştirmeli Öğrenme (RLHF)

Mina Parham

AI Engineer

Şu ana kadarki süreç

Şimdiye kadar ele alınan RLHF sürecini gösteren bir diyagram.

Şu ana kadarki süreç

Şu ana kadarki RLHF sürecini ve sonraki adımı (ödül modelleri) gösteren ok içeren bir diyagram.

Ödül modeli nedir?

Bir yapay zekâ modelinden çıktıya giden oku gösteren bir diyagram.

Ödül modeli nedir?

Model, ajanı bilgilendirir
Ajan, ödülü en üst düzeye çıkarmak için modeli değerlendirir

Ödül şemasına göre bilgilendirilen bir model ve ajanı ile çıktıya giden oku gösteren bir diyagram.

Reward trainer kullanımı

from trl import RewardTrainer, RewardConfig

from transformers import AutoModelForSequenceClassification, AutoTokenizer

from datasets import load_dataset

# Önceden eğitilmiş modeli ve belirteçleyiciyi yükleyin
model = AutoModelForSequenceClassification.from_pretrained("gpt2", num_labels=1)
tokenizer = AutoTokenizer.from_pretrained("gpt2")

# Gerekli biçimde veri kümesini yükleyin
dataset = load_dataset("path/to/dataset")

Ödül modelini eğitme

# Eğitim argümanlarını tanımlayın
training_args = RewardConfig(

    output_dir="path/to/output/dir",

    per_device_train_batch_size=8,
    per_device_eval_batch_size=8,

    num_train_epochs=3,

    learning_rate=1e-3

)

Ödül modelini eğitme

# RewardTrainer'ı başlatın
trainer = RewardTrainer(
    model=model,
    args=training_args,
    train_dataset=dataset["train"],
    eval_dataset=dataset["validation"],
    tokenizer=tokenizer,
)

# Ödül modelini eğitin
trainer.train()

Hadi pratik yapalım!

İnsan Geri Bildiriminden Pekiştirmeli Öğrenme (RLHF)