Rendere i modelli più piccoli con la quantizzazione

Fine-tuning con Llama 3

Francesca Donadoni

Curriculum Manager, DataCamp

Cos’è la quantizzazione?

Ridurre la precisione del modello
Da float a 32 bit a:
- intero a 8 bit
- intero a 4 bit
Addestramento consapevole della quantizzazione

blocco astratto.jpg

Tipi di quantizzazione

Quantizzazione dei pesi: riduce la precisione dei pesi
Quantizzazione delle attivazioni: riduce la precisione dei valori di attivazione
Quantizzazione post-addestramento: riduce la precisione dopo l’addestramento

Configurare la quantizzazione con bitsandbytes

from transformers import BitsAndBytesConfig

bnb_config = BitsAndBytesConfig(

imposta la precisione (load_in_4_bit, load_in_8_bit)

    load_in_4bit=True,

imposta il tipo di quantizzazione ('fp4' o float a 4 bit, 'nf4' o float a 4 bit normalizzato)

    bnb_4bit_quant_type="nf4",

imposta la precisione di calcolo (float 32 bit o bfloat 16 bit)

    bnb_4bit_compute_dtype=torch.bfloat16)

Caricare un modello con quantizzazione

from transformers import BitsAndBytesConfig, AutoModelForCausalLM

bnb_config = BitsAndBytesConfig(
    load_in_4bit=True,
    bnb_4bit_quant_type="nf4",
    bnb_4bit_compute_dtype=torch.bfloat16
)

model = AutoModelForCausalLM.from_pretrained(
    "nvidia/Llama3-ChatQA-1.5-8B",

    quantization_config=bnb_config

)

Usare un modello quantizzato

promptstr = """System: You are a helpful chatbot who answers questions about planets.
User: Explain the history of Mars
Assistant: """

inputs = tokenizer.encode(promptstr, return_tensors="pt")

outputs = model.generate(inputs, max_length=200)

decoded_outputs = tokenizer.decode(outputs[0, inputs.shape[1]:], skip_special_tokens = True)

print(decoded_outputs)

Here is a brief history of Mars:
- 4.6 billion years ago: Mars formed as part of the solar system.
- 3.8 billion years ago: Mars had a thick atmosphere and liquid water on its surface.
- 3.8 billion years ago to 3.5 billion years ago: Mars lost its magnetic field and atmosphere, 
and became a cold, dry planet.
- 3.5 billion years ago to present: Mars has been cold and dry, with a thin atmosphere.

Fine-tuning di un modello quantizzato

La quantizzazione completa non supporta il fine-tuning
Adattamento LoRA

trainer = SFTTrainer(
    model=model,

    peft_config=peft_config,

    train_dataset=ds,
    max_seq_length=250,
    dataset_text_field='conversation',
    tokenizer=tokenizer,
    args=training_arguments

)

trainer.train()

Passiamo alla pratica !

Fine-tuning con Llama 3