RLHF'ye Giriş

İnsan Geri Bildiriminden Pekiştirmeli Öğrenme (RLHF)

Mina Parham

AI Engineer

Kursa hoş geldiniz!

Eğitmen: Mina Parham

Yapay Zekâ Mühendisi
Büyük Dil Modelleri (LLM'ler)
İnsan Geri Bildiriminden Pekiştirmeli Öğrenme (RLHF)

Konu: İnsan Geri Bildiriminden Pekiştirmeli Öğrenme (RLHF)

Ek bir insan adımı içeren bir yapay zekâ modelini temsil eden diyagram.

Kursa hoş geldiniz!

Eğitmen: Mina Parham

Yapay Zekâ Mühendisi
Büyük Dil Modelleri (LLM'ler)
İnsan Geri Bildiriminden Pekiştirmeli Öğrenme (RLHF)

Konu: İnsan Geri Bildiriminden Pekiştirmeli Öğrenme (RLHF)

Ek bir insan adımı içeren ve daha iyi sonuçlara götüren bir yapay zekâ modelini temsil eden diyagram.

Pekiştirmeli öğrenme özeti

Pekiştirmeli öğrenme sürecini temsil eden; bir ajan, bir eylem ve ödül politikasını döngüde gösteren bir diyagram.

Pekiştirmeli öğrenme özeti

Pekiştirmeli öğrenme sürecini temsil eden; bir ajan, bir eylem ve ödül politikasını döngüde gösteren bir diyagram.

Pekiştirmeli öğrenme özeti

Pekiştirmeli öğrenme sürecini temsil eden; bir ajan, bir eylem ve ödül politikasını döngüde gösteren bir diyagram.

Pekiştirmeli öğrenme özeti

Pekiştirmeli öğrenme sürecini temsil eden; bir ajan, bir eylem ve ödül politikasını döngüde gösteren bir diyagram.

RL'den RLHF'ye

İnsan geri bildirimiyle pekiştirmeli öğrenme döngüsünün bir bölümünü temsil eden; bir BYM, bir metin çıktısı ve insan değerlendirici simgesi içeren diyagram.

RL'den RLHF'ye

İnsan geri bildirimiyle pekiştirmeli öğrenme döngüsünün bir bölümünü temsil eden; bir BYM, bir metin çıktısı ve insan değerlendirici simgesi içeren diyagram.

RL'den RLHF'ye

Ödül modeli eğitimi
İnsan tercihleriyle hizalama

İnsan geri bildirimiyle pekiştirmeli öğrenme döngüsünün bir bölümünü temsil eden; bir BYM, bir metin çıktısı ve insan değerlendirici simgesi içeren diyagram.

RLHF'de LLM ince ayarı

Bir büyük dil modeli simgesi.

RLHF'de LLM ince ayarı

Başlangıç LLM eğitimi

Girdi veri setiyle ince ayarlanan bir büyük dil modeli simgesi.

Tam RLHF süreci

"Romeo ve Juliet'i kim yazdı" sorusunu bir LLM'ye ileten bir istem.

Tam RLHF süreci

"Romeo ve Juliet'i kim yazdı" sorusu ve LLM'nin yanıtı: "16. yüzyıl yazarı".

Tam RLHF süreci

"Romeo ve Juliet'i kim yazdı" sorusu, LLM'nin yanıtı: "16. yüzyıl yazarı" ve ek bir model, bir politika modeli, istemi alıyor.

Tam RLHF süreci

"Romeo ve Juliet'i kim yazdı" sorusu, LLM'nin yanıtı: "16. yüzyıl yazarı" ve bir politika modeli, ödül modeliyle eğitiliyor.

Tam RLHF süreci

"Romeo ve Juliet'i kim yazdı" sorusu, LLM'nin yanıtı: "16. yüzyıl yazarı"; ödül modeliyle eğitilen politika modeli "William Shakespeare" yanıtını veriyor.

Tam RLHF süreci

"Romeo ve Juliet'i kim yazdı" sorusu; LLM'nin yanıtı "16. yüzyıl yazarı" ve ödül modeliyle eğitilen politika modelinin "William Shakespeare" yanıtı; iki sonuç arasında karşılaştırma.

RLHF ile ayarlı LLM'lerle etkileşim

Hugging Face'de önceden eğitilmiş RLHF modelleri 🤗

from transformers import pipeline

text_generator = pipeline('text-generation', model='lvwerra/gpt2-imdb-pos-v2')

# Provide a review prompt
review_prompt = "This is definitely a"

# Generate the continuation
output = text_generator(review_prompt, max_length=50)

#Print the generated text
print(output[0]['generated_text'])

This is definitely a crucial improvement.

RLHF ile ayarlı LLM'lerle etkileşim

from transformers import pipeline, AutoModelForSequenceClassification, AutoTokenizer


# Instantiate the pre-trained model and tokenizer
model = AutoModelForSequenceClassification.from_pretrained("lvwerra/distilbert-imdb")
tokenizer = AutoTokenizer.from_pretrained("lvwerra/distilbert-imdb")


# Use pipeline to create the sentiment analyzer
sentiment_analyzer = pipeline('sentiment-analysis', model=model, tokenizer=tokenizer)

# Pass the text to the sentiment analyzer and print the result
sentiment = sentiment_analyzer("This is definitely a crucial improvement.")

print(f"Sentiment Analysis Result: {sentiment}")

positive

Hadi pratik yapalım!

İnsan Geri Bildiriminden Pekiştirmeli Öğrenme (RLHF)