Visuele vraagbeantwoording (VQA)

Multi-modale modellen met Hugging Face

James Chapman

Curriculum Manager, DataCamp

Multimodale QA-taken

Diagram dat de verwerking van beeld en tekst in een VQA-model toont

  1. Losse encodering van vraagtekst en andere modaliteit
Multi-modale modellen met Hugging Face

Multimodale QA-taken

Diagram dat de verwerking van beeld en tekst in een VQA-model toont

  1. Losse encodering van vraagtekst en andere modaliteit
  2. Combinatie van gecodeerde features
Multi-modale modellen met Hugging Face

Multimodale QA-taken

Diagram dat de verwerking van beeld en tekst in een VQA-model toont

  1. Losse encodering van vraagtekst en andere modaliteit
  2. Combinatie van gecodeerde features
  3. Extra modellagen om antwoordsymbolen te voorspellen
Multi-modale modellen met Hugging Face

VQA

import requests
from PIL import Image

url = "https://www.worldanimalprotection
.org/cdn-cgi/image/width=1920,format=
auto/globalassets/images/elephants/1
033551-elephant.jpg"


image = Image.open(requests.get(url, stream=True).raw)
text = "What animal is in this photo?"

Foto van een olifant in het wild

Multi-modale modellen met Hugging Face

VQA

 

  • Model kent beeld- en tekstfeatures van veel objecten
  • Herbruikbare modellen zonder extra fine-tuning

Diagram dat inzoomt op een dier en de identificatie ervan

Multi-modale modellen met Hugging Face

VQA

from transformers import ViltProcessor, ViltForQuestionAnswering


processor = ViltProcessor.from_pretrained("dandelin/vilt-b32-finetuned-vqa") model = ViltForQuestionAnswering.from_pretrained("dandelin/vilt-b32-finetuned-vqa")
encoding = processor(image, text, return_tensors="pt")
outputs = model(**encoding)
idx = outputs.logits.argmax(-1).item()
print("Predicted answer:", model.config.id2label[idx])
Predicted answer: elephant
Multi-modale modellen met Hugging Face

Document-VQA

  • Uitbreiding van VQA om grafieken, tabellen en tekst (OCR) in beelden te detecteren
from datasets import load_dataset
from transformers import pipeline

dataset = load_dataset("lmms-lab/DocVQA")


import matplotlib.pyplot as plt plt.imshow(dataset["test"][2]["image"]) plt.show()

Afbeelding van document met grafieken en staafdiagrammen

Multi-modale modellen met Hugging Face

Document-VQA

Google Tesseract-logo

  • Extra afhankelijkheden nodig voor OCR
  • pytesseract installeren via pip
  • Tesseract OCR via pakketinstaller installer (bijv. apt-get, exe of homebrew/macports)

Foto van een koffiebord met de OCR

Multi-modale modellen met Hugging Face

Document-VQA

from transformers import pipeline
pipe = pipeline("document-question-answering", "impira/layoutlm-document-qa")

result = pipe( dataset["test"][2]["image"], "What was the gross income in 2011-2012?" )
Multi-modale modellen met Hugging Face

Document-VQA

print(result)
[{'score': 0.05149758607149124,
  'answer': '3 36073 Crores', ...}]

Afbeelding van document met grafieken en staafdiagrammen

Multi-modale modellen met Hugging Face

Laten we oefenen!

Multi-modale modellen met Hugging Face

Preparing Video For Download...