Visual question-answering (VQA)

Modelli multi-modali con Hugging Face

James Chapman

Curriculum Manager, DataCamp

Attività di QA multimodale

Schema che mostra l'elaborazione di immagine e testo in un modello VQA

  1. Codifica separata della domanda e dell'altra modalità
Modelli multi-modali con Hugging Face

Attività di QA multimodale

Schema che mostra l'elaborazione di immagine e testo in un modello VQA

  1. Codifica separata della domanda e dell'altra modalità
  2. Combinazione delle feature codificate
Modelli multi-modali con Hugging Face

Attività di QA multimodale

Schema che mostra l'elaborazione di immagine e testo in un modello VQA

  1. Codifica separata della domanda e dell'altra modalità
  2. Combinazione delle feature codificate
  3. Ulteriori layer del modello per predire i token della risposta
Modelli multi-modali con Hugging Face

VQA

import requests
from PIL import Image

url = "https://www.worldanimalprotection
.org/cdn-cgi/image/width=1920,format=
auto/globalassets/images/elephants/1
033551-elephant.jpg"


image = Image.open(requests.get(url, stream=True).raw)
text = "What animal is in this photo?"

Foto di un elefante in natura

Modelli multi-modali con Hugging Face

VQA

 

  • Il modello conosce feature visive e testuali di molti oggetti
  • Modelli riutilizzabili senza ulteriore fine-tuning

Schema che mette a fuoco un animale e lo identifica

Modelli multi-modali con Hugging Face

VQA

from transformers import ViltProcessor, ViltForQuestionAnswering


processor = ViltProcessor.from_pretrained("dandelin/vilt-b32-finetuned-vqa") model = ViltForQuestionAnswering.from_pretrained("dandelin/vilt-b32-finetuned-vqa")
encoding = processor(image, text, return_tensors="pt")
outputs = model(**encoding)
idx = outputs.logits.argmax(-1).item()
print("Predicted answer:", model.config.id2label[idx])
Predicted answer: elephant
Modelli multi-modali con Hugging Face

Document VQA

  • Estensione del VQA per rilevare grafici, tabelle e testo (OCR) nelle immagini
from datasets import load_dataset
from transformers import pipeline

dataset = load_dataset("lmms-lab/DocVQA")


import matplotlib.pyplot as plt plt.imshow(dataset["test"][2]["image"]) plt.show()

Immagine di documento con grafici e barre

Modelli multi-modali con Hugging Face

Document VQA

Logo Google Tesseract

  • Servono dipendenze extra per eseguire l'OCR
  • pytesseract si installa con pip
  • Tesseract OCR via installer (es. apt-get, exe o homebrew/macports)

Foto di un'insegna del caffè con OCR

Modelli multi-modali con Hugging Face

Document VQA

from transformers import pipeline
pipe = pipeline("document-question-answering", "impira/layoutlm-document-qa")

result = pipe( dataset["test"][2]["image"], "What was the gross income in 2011-2012?" )
Modelli multi-modali con Hugging Face

Document VQA

print(result)
[{'score': 0.05149758607149124,
  'answer': '3 36073 Crores', ...}]

Immagine di documento con grafici e barre

Modelli multi-modali con Hugging Face

Passiamo alla pratica!

Modelli multi-modali con Hugging Face

Preparing Video For Download...