Model finetunen met Hugging Face

Fijn-afstemmen met Llama 3

Francesca Donadoni

Curriculum Manager, DataCamp

Wat heb je nodig voor finetuning?

Taalmodel + tokenizer (een LLama-model, zoals TinyLLama-v0)
Trainingsdataset (de Bitext-klantenservicedataset)
Trainingsparameters
Finetunen (SFTTrainer van TRL)
Evaluatiebenchmark of -dataset

De trainingsloop. Training heeft trainingsparameters, data en het model nodig en levert een gefinetuned model op. Evaluatie gebeurt met het gefinetunede model en een evaluatiedataset.

Modellen en tokenizers laden met Auto-classes

model_name="Maykeye/TinyLLama-v0"

model = AutoModelForCausalLM.from_pretrained(model_name)
tokenizer = AutoTokenizer.from_pretrained(model_name)

tokenizer.pad_token = tokenizer.eos_token

¹ https://huggingface.co/docs/transformers/main/en/model_doc/auto

Trainingsparameters definiëren met TrainingArguments

training_arguments = TrainingArguments(

    per_device_train_batch_size=1,

    learning_rate=2e-3,

    max_grad_norm=0.3,

    max_steps=200,

    ...
    gradient_accumulation_steps=2,
    save_steps=10,

)

¹ https://huggingface.co/docs/transformers/v4.40.1/en/main_classes/trainer#transformers.TrainingArguments

Training instellen met SFTTrainer

trainer = SFTTrainer(

    model=model,
    tokenizer=tokenizer,

    train_dataset=dataset,
    dataset_text_field='conversation',

    max_seq_length=250,

    args=training_arguments

)

Finetuningresultaten begrijpen met SFTTrainer

trainer.train()

TrainOutput(global_step=200, training_loss=1.9401231002807617,
            metrics={'train_runtime': 142.5501, 
                     'train_samples_per_second': 2.806,
                     'train_steps_per_second': 1.403, 
                     'total_flos': 1461265827840.0, 
                     'train_loss': 1.9401231002807617, 
                     'epoch': 2.0})

Een getraind model evalueren met ROUGE-1

ROUGE-1: Aandeel woordoverlap tussen referentie en gegenereerde tekst

import evaluate

rouge = evaluate.load('rouge')

predictions = ["hello there", "general kenobi"]
references = ["hello there", "master yoda"]

results = rouge.compute(predictions=predictions, references=references)
print(results)

{'rouge1': 0.5, 'rouge2': 0.5, 'rougeL': 0.5, 'rougeLsum': 0.5}

¹ https://huggingface.co/spaces/evaluate-metric/rouge

De ROUGE-1-score gebruiken

Gebruik de evaluatieset in evaluation_dataset

def generate_predictions_and_reference(dataset):
    predictions = []
    references = []
    for row in dataset:
        inputs = tokenizer.encode(row["instruction"], return_tensors="pt")

        outputs = model.generate(inputs)

        decoded_outputs = tokenizer.decode(outputs[0, inputs.shape[1]:], skip_special_tokens = True)

        references += [row["response"]]
        predictions += [decoded_outputs]
    return references, predictions

ROUGE-1 draaien op een evaluatieset

references, predictions = generate_predictions_and_reference(evaluation_dataset)

rouge = evaluate.load('rouge')
results = rouge.compute(predictions=predictions, references=references)

print(results)

Finetuning vs. geen finetuning

Gefinetuned

{'rouge1': 0.22425812699023645,
 'rouge2': 0.039502543246449,
 'rougeL': 0.1501513006868983,
 'rougeLsum': 0.18685597710721613}

Zonder finetuning

{'rouge1': 0.1310928764315105,
 'rouge2': 0.04581654122835097,
 'rougeL': 0.08415351421221628,
 'rougeLsum': 0.1224749866097021}

Laten we oefenen!

Fijn-afstemmen met Llama 3