Introductie tot RLHF

Reinforcement Learning from Human Feedback (RLHF)

Mina Parham

AI Engineer

Welkom bij de cursus!

Instructeur: Mina Parham

AI-engineer
Large Language Models (LLMs)
Reinforcement Learning from Human Feedback (RLHF)

Onderwerp: Reinforcement Learning from Human Feedback (RLHF)

Een diagram van een AI‑model met een extra stap waarbij een mens betrokken is.

Welkom bij de cursus!

Instructeur: Mina Parham

AI-engineer
Large Language Models (LLMs)
Reinforcement Learning from Human Feedback (RLHF)

Onderwerp: Reinforcement Learning from Human Feedback (RLHF)

Een diagram van een AI‑model met een extra stap waarbij een mens betrokken is, wat tot betere resultaten leidt.

Herhaling reinforcement learning

Een diagram met een pictogram van een agent, een actie en een beloningsbeleid in een cyclus, dat het proces van reinforcement learning weergeeft.

Herhaling reinforcement learning

Een diagram met een pictogram van een agent, een actie en een beloningsbeleid in een cyclus, dat het proces van reinforcement learning weergeeft.

Herhaling reinforcement learning

Een diagram met een pictogram van een agent, een actie en een beloningsbeleid in een cyclus, dat het proces van reinforcement learning weergeeft.

Herhaling reinforcement learning

Een diagram met een pictogram van een agent, een actie en een beloningsbeleid in een cyclus, dat het proces van reinforcement learning weergeeft.

Van RL naar RLHF

Een diagram met een pictogram van een LLM, een tekstuitvoer en een menselijke beoordelaar, als onderdeel van de cyclus van reinforcement learning met menselijke feedback.

Van RL naar RLHF

Een diagram met een pictogram van een LLM, een tekstuitvoer en een menselijke beoordelaar, als onderdeel van de cyclus van reinforcement learning met menselijke feedback.

Van RL naar RLHF

Trainen van het beloningsmodel
Afstemmen op menselijke voorkeuren

Een diagram met een pictogram van een LLM, een tekstuitvoer en een menselijke beoordelaar, als onderdeel van de cyclus van reinforcement learning met menselijke feedback.

LLM-finetuning in RLHF

Een pictogram van een large language model.

LLM-finetuning in RLHF

Trainen van het initiële LLM

Een pictogram van een large language model dat gefinetuned is met een inputdataset.

Het volledige RLHF-proces

Een prompt met de vraag "Who wrote Romeo and Juliet" die een LLM in gaat.

Het volledige RLHF-proces

Een prompt met de vraag "Who wrote Romeo and Juliet" waarop een LLM antwoordt: "a 16th Century author".

Het volledige RLHF-proces

Een prompt met de vraag "Who wrote Romeo and Juliet" waarop een LLM antwoordt: "a 16th Century author", en een extra model, een policymodel, dat de prompt ontvangt.

Het volledige RLHF-proces

Een prompt met de vraag "Who wrote Romeo and Juliet" waarop een LLM antwoordt: "a 16th Century author", en een extra model, een policymodel, dat de prompt ontvangt en wordt getraind met een beloningsmodel.

Het volledige RLHF-proces

Een prompt met de vraag "Who wrote Romeo and Juliet" waarop een LLM antwoordt: "a 16th Century author", en een extra model, een policymodel, dat met een beloningsmodel wordt getraind en het antwoord "William Shakespeare" geeft.

Het volledige RLHF-proces

Werken met RLHF-getunede LLM's

Voorgetrainde RLHF-modellen op Hugging Face 🤗

from transformers import pipeline

text_generator = pipeline('text-generation', model='lvwerra/gpt2-imdb-pos-v2')

# Provide a review prompt
review_prompt = "This is definitely a"

# Generate the continuation
output = text_generator(review_prompt, max_length=50)

#Print the generated text
print(output[0]['generated_text'])

This is definitely a crucial improvement.

Werken met RLHF-getunede LLM's

from transformers import pipeline, AutoModelForSequenceClassification, AutoTokenizer


# Instantiate the pre-trained model and tokenizer
model = AutoModelForSequenceClassification.from_pretrained("lvwerra/distilbert-imdb")
tokenizer = AutoTokenizer.from_pretrained("lvwerra/distilbert-imdb")


# Use pipeline to create the sentiment analyzer
sentiment_analyzer = pipeline('sentiment-analysis', model=model, tokenizer=tokenizer)

# Pass the text to the sentiment analyzer and print the result
sentiment = sentiment_analyzer("This is definitely a crucial improvement.")

print(f"Sentiment Analysis Result: {sentiment}")

positive

Laten we oefenen!

Reinforcement Learning from Human Feedback (RLHF)