Model finetunen met Hugging Face

Fijn-afstemmen met Llama 3

Francesca Donadoni

Curriculum Manager, DataCamp

Wat heb je nodig voor finetuning?

  1. Taalmodel + tokenizer (een LLama-model, zoals TinyLLama-v0)
  2. Trainingsdataset (de Bitext-klantenservicedataset)
  3. Trainingsparameters
  4. Finetunen (SFTTrainer van TRL)
  5. Evaluatiebenchmark of -dataset

De trainingsloop. Training heeft trainingsparameters, data en het model nodig en levert een gefinetuned model op. Evaluatie gebeurt met het gefinetunede model en een evaluatiedataset.

Fijn-afstemmen met Llama 3

Modellen en tokenizers laden met Auto-classes

model_name="Maykeye/TinyLLama-v0"

model = AutoModelForCausalLM.from_pretrained(model_name)
tokenizer = AutoTokenizer.from_pretrained(model_name)

tokenizer.pad_token = tokenizer.eos_token
1 https://huggingface.co/docs/transformers/main/en/model_doc/auto
Fijn-afstemmen met Llama 3

Trainingsparameters definiëren met TrainingArguments

training_arguments = TrainingArguments(

per_device_train_batch_size=1,
learning_rate=2e-3,
max_grad_norm=0.3,
max_steps=200,
... gradient_accumulation_steps=2, save_steps=10,
)
1 https://huggingface.co/docs/transformers/v4.40.1/en/main_classes/trainer#transformers.TrainingArguments
Fijn-afstemmen met Llama 3

Training instellen met SFTTrainer

trainer = SFTTrainer(

model=model, tokenizer=tokenizer,
train_dataset=dataset, dataset_text_field='conversation',
max_seq_length=250,
args=training_arguments
)
Fijn-afstemmen met Llama 3

Finetuningresultaten begrijpen met SFTTrainer

trainer.train()
TrainOutput(global_step=200, training_loss=1.9401231002807617,
            metrics={'train_runtime': 142.5501, 
                     'train_samples_per_second': 2.806,
                     'train_steps_per_second': 1.403, 
                     'total_flos': 1461265827840.0, 
                     'train_loss': 1.9401231002807617, 
                     'epoch': 2.0})
Fijn-afstemmen met Llama 3

Een getraind model evalueren met ROUGE-1

  • ROUGE-1: Aandeel woordoverlap tussen referentie en gegenereerde tekst
import evaluate

rouge = evaluate.load('rouge')
predictions = ["hello there", "general kenobi"] references = ["hello there", "master yoda"]
results = rouge.compute(predictions=predictions, references=references) print(results)
{'rouge1': 0.5, 'rouge2': 0.5, 'rougeL': 0.5, 'rougeLsum': 0.5}
1 https://huggingface.co/spaces/evaluate-metric/rouge
Fijn-afstemmen met Llama 3

De ROUGE-1-score gebruiken

  1. Gebruik de evaluatieset in evaluation_dataset
def generate_predictions_and_reference(dataset):
    predictions = []
    references = []
    for row in dataset:
        inputs = tokenizer.encode(row["instruction"], return_tensors="pt")

outputs = model.generate(inputs)
decoded_outputs = tokenizer.decode(outputs[0, inputs.shape[1]:], skip_special_tokens = True)
references += [row["response"]] predictions += [decoded_outputs] return references, predictions
Fijn-afstemmen met Llama 3

ROUGE-1 draaien op een evaluatieset

references, predictions = generate_predictions_and_reference(evaluation_dataset)
rouge = evaluate.load('rouge')
results = rouge.compute(predictions=predictions, references=references)
print(results)
Fijn-afstemmen met Llama 3

Finetuning vs. geen finetuning

Gefinetuned

{'rouge1': 0.22425812699023645,
 'rouge2': 0.039502543246449,
 'rougeL': 0.1501513006868983,
 'rougeLsum': 0.18685597710721613}

Zonder finetuning

{'rouge1': 0.1310928764315105,
 'rouge2': 0.04581654122835097,
 'rougeL': 0.08415351421221628,
 'rougeLsum': 0.1224749866097021}
Fijn-afstemmen met Llama 3

Laten we oefenen!

Fijn-afstemmen met Llama 3

Preparing Video For Download...