Pipelinetaken en evaluaties

Multi-modale modellen met Hugging Face

James Chapman

Curriculum Manager, DataCamp

Pipelines vs. modelcomponenten

Huidige aanpak

from transformers import BlipProcessor, BlipForConditionalGeneration
checkpoint = "Salesforce/blip-image-captioning-base"
processor = BlipProcessor.from_pretrained(checkpoint)
model = BlipForConditionalGeneration.from_pretrained(checkpoint)

Pipelines

from transformers import pipeline
pipe = pipeline("image-to-text", model=checkpoint)

Voorbeeldvergelijking

Preprocessor en model direct

inputs = processor(images=image, 
                   return_tensors="pt")
gen = model.generate(**inputs)
processor.decode(gen[0])

Pipeline

pipe(image)

[{'generated_text': 
'a man wearing a black shirt'}]

datapunt5

Modellen en taken vinden

Vind modellen voor een pipeline via de API:

from huggingface_hub import HfApi
model = list(api.list_models(task="text-to-image", limit=5))
pipe = pipeline("text-to-image", model[0].id)

Screenshot van modelhomepage op Hugging Face

Opties aan modellen meegeven

MusicgenForConditionalGeneration onder de motorkap

pipe = pipeline(task="text-to-audio", 
                model="facebook/musicgen-small", framework="pt")

generate_kwargs = {"temperature": 0.8, "max_new_tokens": 20}

outputs = pipe("Classic rock riff", generate_kwargs=generate_kwargs)

temperature (0-1): stuurt willekeur en creativiteit
max_new_tokens: begrenst aantal gegenereerde tokens

Pipelineprestaties evalueren

Accuracy: aandeel correcte classificaties
Precision: hoe vaak voorspellingen kloppen
Recall: aandeel echte klassen correct gevonden
F1-score: combineert precision en recall

from evaluate import evaluator

task_evaluator = evaluator("image-classification")

metrics_dict = {
    "precision": "precision",
    "recall": "recall",
    "f1": "f1",
}

label_map = pipe.model.config.label2id

Pipelineprestaties evalueren

eval_results = task_evaluator.compute(
  model_or_pipeline=pipe,

  data=dataset,

  metric=evaluate.combine(metrics_dict),

  label_mapping=label_map)

print(eval_results)

{'precision': 0.999001923076923, 
'recall': 0.999, 
'f1': 0.9989999609405906, ...}

pipe = pipeline(task="image-classification",
model="ideepankarsharma2003/AI_ImageClassi
fication_MidjourneyV6_SDXL"
)
dataset = load_dataset("ideepankarsharma2003/
Midjourney_v6_Classification_small_shuffled")

voorbeeld van een AI-gegenereerde afbeelding uit de dataset van een hond onder water

Laten we oefenen!

Multi-modale modellen met Hugging Face