Visuele vraagbeantwoording (VQA)

Multi-modale modellen met Hugging Face

James Chapman

Curriculum Manager, DataCamp

Multimodale QA-taken

Diagram dat de verwerking van beeld en tekst in een VQA-model toont

Losse encodering van vraagtekst en andere modaliteit

Multimodale QA-taken

Diagram dat de verwerking van beeld en tekst in een VQA-model toont

Losse encodering van vraagtekst en andere modaliteit
Combinatie van gecodeerde features

Multimodale QA-taken

Diagram dat de verwerking van beeld en tekst in een VQA-model toont

Losse encodering van vraagtekst en andere modaliteit
Combinatie van gecodeerde features
Extra modellagen om antwoordsymbolen te voorspellen

VQA

import requests
from PIL import Image

url = "https://www.worldanimalprotection
.org/cdn-cgi/image/width=1920,format=
auto/globalassets/images/elephants/1
033551-elephant.jpg"


image = Image.open(requests.get(url, 
stream=True).raw)


text = "What animal is in this photo?"

Foto van een olifant in het wild

VQA

Model kent beeld- en tekstfeatures van veel objecten
Herbruikbare modellen zonder extra fine-tuning

Diagram dat inzoomt op een dier en de identificatie ervan

VQA

from transformers import ViltProcessor, ViltForQuestionAnswering


processor = ViltProcessor.from_pretrained("dandelin/vilt-b32-finetuned-vqa")
model = ViltForQuestionAnswering.from_pretrained("dandelin/vilt-b32-finetuned-vqa")


encoding = processor(image, text, return_tensors="pt")


outputs = model(**encoding)

idx = outputs.logits.argmax(-1).item()


print("Predicted answer:", model.config.id2label[idx])

Predicted answer: elephant

Document-VQA

Uitbreiding van VQA om grafieken, tabellen en tekst (OCR) in beelden te detecteren

from datasets import load_dataset
from transformers import pipeline

dataset = load_dataset("lmms-lab/DocVQA")


import matplotlib.pyplot as plt
plt.imshow(dataset["test"][2]["image"])
plt.show()

Afbeelding van document met grafieken en staafdiagrammen

Document-VQA

Google Tesseract-logo

Extra afhankelijkheden nodig voor OCR
pytesseract installeren via pip
Tesseract OCR via pakketinstaller installer (bijv. apt-get, exe of homebrew/macports)

Foto van een koffiebord met de OCR

Document-VQA

LayoutLM: Getraind met beelden en Q/A's uit de DocVQA-dataset

from transformers import pipeline
pipe = pipeline("document-question-answering", "impira/layoutlm-document-qa")


result = pipe(
    dataset["test"][2]["image"],
    "What was the gross income in 2011-2012?"
)

Document-VQA

print(result)

[{'score': 0.05149758607149124,
  'answer': '3 36073 Crores', ...}]

Afbeelding van document met grafieken en staafdiagrammen

Laten we oefenen!

Multi-modale modellen met Hugging Face