Introductie tot RLHF

Reinforcement Learning from Human Feedback (RLHF)

Mina Parham

AI Engineer

Welkom bij de cursus!

 

  • Instructeur: Mina Parham

 

  • AI-engineer
  • Large Language Models (LLMs)
  • Reinforcement Learning from Human Feedback (RLHF)

 

  • Onderwerp: Reinforcement Learning from Human Feedback (RLHF)

Een diagram van een AI‑model met een extra stap waarbij een mens betrokken is.

Reinforcement Learning from Human Feedback (RLHF)

Welkom bij de cursus!

 

  • Instructeur: Mina Parham

 

  • AI-engineer
  • Large Language Models (LLMs)
  • Reinforcement Learning from Human Feedback (RLHF)

 

  • Onderwerp: Reinforcement Learning from Human Feedback (RLHF)

Een diagram van een AI‑model met een extra stap waarbij een mens betrokken is, wat tot betere resultaten leidt.

Reinforcement Learning from Human Feedback (RLHF)

Herhaling reinforcement learning

Een diagram met een pictogram van een agent, een actie en een beloningsbeleid in een cyclus, dat het proces van reinforcement learning weergeeft.

Reinforcement Learning from Human Feedback (RLHF)

Herhaling reinforcement learning

Een diagram met een pictogram van een agent, een actie en een beloningsbeleid in een cyclus, dat het proces van reinforcement learning weergeeft.

Reinforcement Learning from Human Feedback (RLHF)

Herhaling reinforcement learning

Een diagram met een pictogram van een agent, een actie en een beloningsbeleid in een cyclus, dat het proces van reinforcement learning weergeeft.

Reinforcement Learning from Human Feedback (RLHF)

Herhaling reinforcement learning

Een diagram met een pictogram van een agent, een actie en een beloningsbeleid in een cyclus, dat het proces van reinforcement learning weergeeft.

Reinforcement Learning from Human Feedback (RLHF)

Van RL naar RLHF

 

  Een diagram met een pictogram van een LLM, een tekstuitvoer en een menselijke beoordelaar, als onderdeel van de cyclus van reinforcement learning met menselijke feedback.

Reinforcement Learning from Human Feedback (RLHF)

Van RL naar RLHF

 

  Een diagram met een pictogram van een LLM, een tekstuitvoer en een menselijke beoordelaar, als onderdeel van de cyclus van reinforcement learning met menselijke feedback.

Reinforcement Learning from Human Feedback (RLHF)

Van RL naar RLHF

  • Trainen van het beloningsmodel
  • Afstemmen op menselijke voorkeuren

Een diagram met een pictogram van een LLM, een tekstuitvoer en een menselijke beoordelaar, als onderdeel van de cyclus van reinforcement learning met menselijke feedback.

Reinforcement Learning from Human Feedback (RLHF)

LLM-finetuning in RLHF

 

Een pictogram van een large language model.

Reinforcement Learning from Human Feedback (RLHF)

LLM-finetuning in RLHF

  • Trainen van het initiële LLM

Een pictogram van een large language model dat gefinetuned is met een inputdataset.

Reinforcement Learning from Human Feedback (RLHF)

Het volledige RLHF-proces

Een prompt met de vraag "Who wrote Romeo and Juliet" die een LLM in gaat.

Reinforcement Learning from Human Feedback (RLHF)

Het volledige RLHF-proces

Een prompt met de vraag "Who wrote Romeo and Juliet" waarop een LLM antwoordt: "a 16th Century author".

Reinforcement Learning from Human Feedback (RLHF)

Het volledige RLHF-proces

Een prompt met de vraag "Who wrote Romeo and Juliet" waarop een LLM antwoordt: "a 16th Century author", en een extra model, een policymodel, dat de prompt ontvangt.

Reinforcement Learning from Human Feedback (RLHF)

Het volledige RLHF-proces

Een prompt met de vraag "Who wrote Romeo and Juliet" waarop een LLM antwoordt: "a 16th Century author", en een extra model, een policymodel, dat de prompt ontvangt en wordt getraind met een beloningsmodel.

Reinforcement Learning from Human Feedback (RLHF)

Het volledige RLHF-proces

Een prompt met de vraag "Who wrote Romeo and Juliet" waarop een LLM antwoordt: "a 16th Century author", en een extra model, een policymodel, dat met een beloningsmodel wordt getraind en het antwoord "William Shakespeare" geeft.

Reinforcement Learning from Human Feedback (RLHF)

Het volledige RLHF-proces

Een prompt met de vraag "Who wrote Romeo and Juliet" waarop een LLM antwoordt: "a 16th Century author", en een extra model, een policymodel, dat met een beloningsmodel wordt getraind en het antwoord "William Shakespeare" geeft, met een vergelijking tussen de twee resultaten.

Reinforcement Learning from Human Feedback (RLHF)

Werken met RLHF-getunede LLM's

  • Voorgetrainde RLHF-modellen op Hugging Face 🤗
from transformers import pipeline

text_generator = pipeline('text-generation', model='lvwerra/gpt2-imdb-pos-v2')
# Provide a review prompt review_prompt = "This is definitely a" # Generate the continuation output = text_generator(review_prompt, max_length=50) #Print the generated text print(output[0]['generated_text'])
This is definitely a crucial improvement.
Reinforcement Learning from Human Feedback (RLHF)

Werken met RLHF-getunede LLM's

from transformers import pipeline, AutoModelForSequenceClassification, AutoTokenizer


# Instantiate the pre-trained model and tokenizer model = AutoModelForSequenceClassification.from_pretrained("lvwerra/distilbert-imdb") tokenizer = AutoTokenizer.from_pretrained("lvwerra/distilbert-imdb")
# Use pipeline to create the sentiment analyzer sentiment_analyzer = pipeline('sentiment-analysis', model=model, tokenizer=tokenizer) # Pass the text to the sentiment analyzer and print the result sentiment = sentiment_analyzer("This is definitely a crucial improvement.")
print(f"Sentiment Analysis Result: {sentiment}")
positive
Reinforcement Learning from Human Feedback (RLHF)

Laten we oefenen!

Reinforcement Learning from Human Feedback (RLHF)

Preparing Video For Download...