Zero-shot beeldclassificatie

Multi-modale modellen met Hugging Face

James Chapman

Curriculum Manager, DataCamp

CLIP

Contrastive Language-Image Pre-training
Scoort overeenkomst tussen beeld en tekst
Getraind op 400M beeld-tekstparen
Twee encoders:
- Vision-encoder
- Tekst-encoder
Dichte beeld-tekstmatches geven vergelijkbare arrays

Diagram van CLIP-tekst- en beeldcodering

¹ https://openai.com/index/clip/

Zero-shot learning

Taken uitvoeren waarvoor het model niet is getraind

Zero-shot learning-rangschikking van een vliegtuig

¹ https://openai.com/index/clip/

Use case: productcategorisatie

from datasets import load_dataset
import matplotlib.pyplot as plt

dset = "rajuptvs/ecommerce_products_clip"
dataset = load_dataset(dset)

print(dataset["train"][0]["Description"])

plt.imshow(dataset["train"][0]["image"])
plt.show()

Blive High quality premium Full sleeves printed 
Shirt direct from the manufacturers.Gives you 
a clean and classy look while also 
making you feel comfortable.Trusted 
brand online and no compromise on quality.

Afbeelding van een shirt uit de dataset

Zero-shot learning met CLIP

model = CLIPModel.from_pretrained("openai/clip-vit-base-patch32")
processor = CLIPProcessor.from_pretrained("openai/clip-vit-base-patch32")


categories = ["shirt", "trousers", "shoes", "dress", "hat", "bag", "watch"]


inputs = processor(text=categories, images=dataset["train"][0]["image"], 
                   return_tensors="pt", padding=True)
outputs = model(**inputs)


probs = outputs.logits_per_image.softmax(dim=1)

categories[probs.argmax().item()]

shirt

De CLIP-score

Overeenkomst tussen gecodeerde afbeelding en gecodeerde beschrijving
Bereik van 100 (perfecte match) tot 0 (geen match)

from torchmetrics.functional.multimodal import clip_score


image = dataset["train"][0]["image"]
description = dataset["train"][0]["Description"]


from torchvision.transforms import ToTensor
image = ToTensor()(image)*255


score = clip_score(image, description, "openai/clip-vit-base-patch32")

print(f"CLIP-score: {score}")

CLIP-score: 28.495952606201172

Laten we oefenen!

Multi-modale modellen met Hugging Face