Voorgetrainde LLM’s verkennen

Reinforcement Learning from Human Feedback (RLHF)

Mina Parham

AI Engineer

Waarom fine-tunen belangrijk is

Een diagram dat het RLHF-proces toont.

Reinforcement Learning from Human Feedback (RLHF)

Waarom fine-tunen belangrijk is

Een diagram van een LLM met input en output.

Reinforcement Learning from Human Feedback (RLHF)

Stapsgewijs fine-tunen van een LLM

Pictogram van een LLM die het sentiment van tweets herkent.

Reinforcement Learning from Human Feedback (RLHF)

Stapsgewijs fine-tunen van een LLM

Pictogram van een LLM voor tweetsentiment die een fout antwoord geeft.

Reinforcement Learning from Human Feedback (RLHF)

Stapsgewijs fine-tunen van een LLM

Pictogram van een LLM voor tweetsentiment, voorgetraind op een grote dataset.

Reinforcement Learning from Human Feedback (RLHF)

Stap 1: laad de data

from datasets import load_dataset
import pandas as pd

# `load_dataset` vereenvoudigt het laden en preprocessen van datasets uit diverse bronnen
# Biedt snelle toegang tot veel datasets met minimale setup
dataset = load_dataset("mteb/tweet_sentiment_extraction")
df = pd.DataFrame(dataset['train'])
    id               text                                        label   label_text
0   cb774db0d1       I'd have responded, if I were going         1       neutral
1   549e992a42       Sooo SAD I will miss you in San Diego!!!    0       negative
2   08ac60f138       my boss is bullying me...                   0       negative
Reinforcement Learning from Human Feedback (RLHF)

Stap 2: kies een voorgetraind model

from transformers import AutoModelForCausalLM

# AutoModelForCausalLM maakt modellen laden en wisselen makkelijk
model = AutoModelForCausalLM.from_pretrained("openai-gpt")

 

  • Causale modellen: vorige tokens "veroorzaken" de volgende
Reinforcement Learning from Human Feedback (RLHF)

Stap 3: tokenizer

from transformers import AutoTokenizer

# `AutoTokenizer` laadt de juiste tokenizer voor het model
tokenizer = AutoTokenizer.from_pretrained("openai-gpt")
tokenizer.add_special_tokens({'pad_token': '[PAD]'})
model.resize_token_embeddings(len(tokenizer))

 

  • Padding: gelijke batch-groottes
Reinforcement Learning from Human Feedback (RLHF)

Stap 3: tokenizer

def tokenize_function(examples):
    tokenized = tokenizer(examples["content"], padding="max_length", truncation=True) 
    return tokenized

tokenized_datasets = dataset.map(tokenize_function, batched=True)

 

  • Parameter batched: sneller verwerken
Reinforcement Learning from Human Feedback (RLHF)

Stap 4: fine-tunen met Trainer

training_args = TrainingArguments(
   output_dir="test_trainer",
   per_device_train_batch_size=1,
   per_device_eval_batch_size=1,  
   gradient_accumulation_steps=4)
trainer = Trainer(
   model=model,
   args=training_args,
   train_dataset=tokenized_dataset["train"],
   eval_dataset=tokenized_dataset["test"])
trainer.train()
Reinforcement Learning from Human Feedback (RLHF)

Laten we oefenen!

Reinforcement Learning from Human Feedback (RLHF)

Preparing Video For Download...