Document Q&A

Arbeiten mit Hugging Face

Jacob H. Marquez

Lead Data Engineer

Was bedeutet Document QA?

$$

  • Antworten auf Fragen zum Inhalt von Dokumenten
  • Dokument und Frage erforderlich
  • Direkte oder umschriebene Antworten

$$

Frage: „Wie hoch ist der Gesamtumsatz in Q3?“

A document

Arbeiten mit Hugging Face

Anwendungsfälle für Document Q&A

Legal, finance and support use cases

$$

  • 📑 Rechtswesen: Vertragsklauseln identifizieren

$$

  • 💰 Finanzen: Kennzahlen extrahieren

$$

  • 🤓 Support: Antworten aus Handbüchern zusammentragen
Arbeiten mit Hugging Face

Automatisierung von HR-Anfragen mit Document Q&A

$$

  • 📄 Informationen gespeichert in US-Employee_Policy.pdf

$$

  • 🤖 System zum Extrahieren von Antworten aufbauen

$$

  • 🕑 Spart Zeit und Aufwand in der Personalabteilung

$$

HR team is overwhelmed

Arbeiten mit Hugging Face

Text mit pypdf extrahieren

from pypdf import PdfReader


# Load the PDF file reader = PdfReader("US-Employee_Policy.pdf")
# Extract text from all pages document_text = "" for page in reader.pages:
document_text += page.extract_text()
Welcome to the US Employee Policy document...
Arbeiten mit Hugging Face

Eine Q&A-Pipeline aufbauen

# Load the question-answering pipeline
qa_pipeline = pipeline(
    task="question-answering",
    model="distilbert-base-cased-distilled-squad")


question = "How many volunteer days are offered annually?"
# Get the answer from the QA pipeline result = qa_pipeline(question=question, context=document_text)
print(f"Answer: {result['answer']}")
Answer: 1
Arbeiten mit Hugging Face

Zusammenfassung

$$

  • 📄 PdfReader von pypdf zum Laden und Lesen von PDF-Dateien verwenden
  • 🔎 Text mit.pages und.extract_text() in document_text extrahieren
  • 🤔 Einequestion-answering-Pipeline einrichten
  • question und context an die Pipeline übergeben
  • ⏰ In Funktionen einbinden und Abfragen automatisieren

Document Q&A

HR team building company culture

Arbeiten mit Hugging Face

Lass uns üben!

Arbeiten mit Hugging Face

Preparing Video For Download...