RLHF'ye Giriş

İnsan Geri Bildiriminden Pekiştirmeli Öğrenme (RLHF)

Mina Parham

AI Engineer

Kursa hoş geldiniz!

 

  • Eğitmen: Mina Parham

 

  • Yapay Zekâ Mühendisi
  • Büyük Dil Modelleri (LLM'ler)
  • İnsan Geri Bildiriminden Pekiştirmeli Öğrenme (RLHF)

 

  • Konu: İnsan Geri Bildiriminden Pekiştirmeli Öğrenme (RLHF)

Ek bir insan adımı içeren bir yapay zekâ modelini temsil eden diyagram.

İnsan Geri Bildiriminden Pekiştirmeli Öğrenme (RLHF)

Kursa hoş geldiniz!

 

  • Eğitmen: Mina Parham

 

  • Yapay Zekâ Mühendisi
  • Büyük Dil Modelleri (LLM'ler)
  • İnsan Geri Bildiriminden Pekiştirmeli Öğrenme (RLHF)

 

  • Konu: İnsan Geri Bildiriminden Pekiştirmeli Öğrenme (RLHF)

Ek bir insan adımı içeren ve daha iyi sonuçlara götüren bir yapay zekâ modelini temsil eden diyagram.

İnsan Geri Bildiriminden Pekiştirmeli Öğrenme (RLHF)

Pekiştirmeli öğrenme özeti

Pekiştirmeli öğrenme sürecini temsil eden; bir ajan, bir eylem ve ödül politikasını döngüde gösteren bir diyagram.

İnsan Geri Bildiriminden Pekiştirmeli Öğrenme (RLHF)

Pekiştirmeli öğrenme özeti

Pekiştirmeli öğrenme sürecini temsil eden; bir ajan, bir eylem ve ödül politikasını döngüde gösteren bir diyagram.

İnsan Geri Bildiriminden Pekiştirmeli Öğrenme (RLHF)

Pekiştirmeli öğrenme özeti

Pekiştirmeli öğrenme sürecini temsil eden; bir ajan, bir eylem ve ödül politikasını döngüde gösteren bir diyagram.

İnsan Geri Bildiriminden Pekiştirmeli Öğrenme (RLHF)

Pekiştirmeli öğrenme özeti

Pekiştirmeli öğrenme sürecini temsil eden; bir ajan, bir eylem ve ödül politikasını döngüde gösteren bir diyagram.

İnsan Geri Bildiriminden Pekiştirmeli Öğrenme (RLHF)

RL'den RLHF'ye

 

  İnsan geri bildirimiyle pekiştirmeli öğrenme döngüsünün bir bölümünü temsil eden; bir BYM, bir metin çıktısı ve insan değerlendirici simgesi içeren diyagram.

İnsan Geri Bildiriminden Pekiştirmeli Öğrenme (RLHF)

RL'den RLHF'ye

 

  İnsan geri bildirimiyle pekiştirmeli öğrenme döngüsünün bir bölümünü temsil eden; bir BYM, bir metin çıktısı ve insan değerlendirici simgesi içeren diyagram.

İnsan Geri Bildiriminden Pekiştirmeli Öğrenme (RLHF)

RL'den RLHF'ye

  • Ödül modeli eğitimi
  • İnsan tercihleriyle hizalama

İnsan geri bildirimiyle pekiştirmeli öğrenme döngüsünün bir bölümünü temsil eden; bir BYM, bir metin çıktısı ve insan değerlendirici simgesi içeren diyagram.

İnsan Geri Bildiriminden Pekiştirmeli Öğrenme (RLHF)

RLHF'de LLM ince ayarı

 

Bir büyük dil modeli simgesi.

İnsan Geri Bildiriminden Pekiştirmeli Öğrenme (RLHF)

RLHF'de LLM ince ayarı

  • Başlangıç LLM eğitimi

Girdi veri setiyle ince ayarlanan bir büyük dil modeli simgesi.

İnsan Geri Bildiriminden Pekiştirmeli Öğrenme (RLHF)

Tam RLHF süreci

"Romeo ve Juliet'i kim yazdı" sorusunu bir LLM'ye ileten bir istem.

İnsan Geri Bildiriminden Pekiştirmeli Öğrenme (RLHF)

Tam RLHF süreci

"Romeo ve Juliet'i kim yazdı" sorusu ve LLM'nin yanıtı: "16. yüzyıl yazarı".

İnsan Geri Bildiriminden Pekiştirmeli Öğrenme (RLHF)

Tam RLHF süreci

"Romeo ve Juliet'i kim yazdı" sorusu, LLM'nin yanıtı: "16. yüzyıl yazarı" ve ek bir model, bir politika modeli, istemi alıyor.

İnsan Geri Bildiriminden Pekiştirmeli Öğrenme (RLHF)

Tam RLHF süreci

"Romeo ve Juliet'i kim yazdı" sorusu, LLM'nin yanıtı: "16. yüzyıl yazarı" ve bir politika modeli, ödül modeliyle eğitiliyor.

İnsan Geri Bildiriminden Pekiştirmeli Öğrenme (RLHF)

Tam RLHF süreci

"Romeo ve Juliet'i kim yazdı" sorusu, LLM'nin yanıtı: "16. yüzyıl yazarı"; ödül modeliyle eğitilen politika modeli "William Shakespeare" yanıtını veriyor.

İnsan Geri Bildiriminden Pekiştirmeli Öğrenme (RLHF)

Tam RLHF süreci

"Romeo ve Juliet'i kim yazdı" sorusu; LLM'nin yanıtı "16. yüzyıl yazarı" ve ödül modeliyle eğitilen politika modelinin "William Shakespeare" yanıtı; iki sonuç arasında karşılaştırma.

İnsan Geri Bildiriminden Pekiştirmeli Öğrenme (RLHF)

RLHF ile ayarlı LLM'lerle etkileşim

  • Hugging Face'de önceden eğitilmiş RLHF modelleri 🤗
from transformers import pipeline

text_generator = pipeline('text-generation', model='lvwerra/gpt2-imdb-pos-v2')
# Provide a review prompt review_prompt = "This is definitely a" # Generate the continuation output = text_generator(review_prompt, max_length=50) #Print the generated text print(output[0]['generated_text'])
This is definitely a crucial improvement.
İnsan Geri Bildiriminden Pekiştirmeli Öğrenme (RLHF)

RLHF ile ayarlı LLM'lerle etkileşim

from transformers import pipeline, AutoModelForSequenceClassification, AutoTokenizer


# Instantiate the pre-trained model and tokenizer model = AutoModelForSequenceClassification.from_pretrained("lvwerra/distilbert-imdb") tokenizer = AutoTokenizer.from_pretrained("lvwerra/distilbert-imdb")
# Use pipeline to create the sentiment analyzer sentiment_analyzer = pipeline('sentiment-analysis', model=model, tokenizer=tokenizer) # Pass the text to the sentiment analyzer and print the result sentiment = sentiment_analyzer("This is definitely a crucial improvement.")
print(f"Sentiment Analysis Result: {sentiment}")
positive
İnsan Geri Bildiriminden Pekiştirmeli Öğrenme (RLHF)

Hadi pratik yapalım!

İnsan Geri Bildiriminden Pekiştirmeli Öğrenme (RLHF)

Preparing Video For Download...