Dokumente für RAG mit LangChain laden

Retrieval Augmented Generation (RAG) mit LangChain

Meri Nova

Machine Learning Engineer

Lern deine Dozentin kennen …

 

Meri Nova

 

  • Gründerin von Break Into Data
  • Machine-Learning-Engineer
  • Content Creator auf LinkedIn und YouTube

Foto von Meri.

Retrieval Augmented Generation (RAG) mit LangChain

Retrieval Augmented Generation (RAG)

 

  • LLM-Grenze: Wissensbeschränkungen

 

RAG: Externe Daten mit LLMs verbinden

Eine Person gibt einem LLM zusätzliche Infos in Form von Büchern.

1 Erstellt mit DALL·E 3
Retrieval Augmented Generation (RAG) mit LangChain

Der Standard-RAG-Workflow

Eine einzelne Nutzerin/ein einzelner Nutzer.

Retrieval Augmented Generation (RAG) mit LangChain

Der Standard-RAG-Workflow

Eine Benutzeranfrage wird an eine Vektordatenbank gesendet.

Retrieval Augmented Generation (RAG) mit LangChain

Der Standard-RAG-Workflow

Relevante Dokumente werden aus der Vektordatenbank abgerufen.

Retrieval Augmented Generation (RAG) mit LangChain

Der Standard-RAG-Workflow

Die abgerufenen Dokumente werden zum Prompt hinzugefügt.

Retrieval Augmented Generation (RAG) mit LangChain

Der Standard-RAG-Workflow

Der Prompt wird an das LLM gesendet und die Antwort zum Nutzer zurückgegeben.

Retrieval Augmented Generation (RAG) mit LangChain

Daten für das Retrieval vorbereiten

Dokumente werden geladen.

Retrieval Augmented Generation (RAG) mit LangChain

Daten für das Retrieval vorbereiten

Dokumente werden in Teile gesplittet.

Retrieval Augmented Generation (RAG) mit LangChain

Daten für das Retrieval vorbereiten

Dokument-Chunks werden eingebettet.

Retrieval Augmented Generation (RAG) mit LangChain

Daten für das Retrieval vorbereiten

Dokument-Chunks werden gespeichert.

Retrieval Augmented Generation (RAG) mit LangChain

Document Loader

 

  • Dokumente mit KI-Systemen integrieren
  • Unterstützung vieler gängiger Dateiformate
  • Drittanbieter-Dokumentlader

 

  • CSVLoader
  • PyPDFLoader
  • UnstructuredHTMLLoader

Dokumente werden geladen.

Retrieval Augmented Generation (RAG) mit LangChain

CSV-Dateien laden

from langchain_community.document_loaders.csv_loader import CSVLoader

csv_loader = CSVLoader(file_path='path/to/your/file.csv')

documents = csv_loader.load() print(documents)
[Document(page_content='Team: Nationals\n"Payroll (millions)": 81.34\n"Wins": 98',
          metadata={'source': 'path/to/your/file.csv', 'row': 0}),
 Document(page_content='Team: Reds\n"Payroll (millions)": 82.20\n"Wins": 97',
          metadata={'source': 'path/to/your/file.csv', 'row': 1}),
 Document(page_content='Team: Yankees\n"Payroll (millions)": 197.96\n"Wins": 95',
          metadata={'source': 'path/to/your/file.csv', 'row': 2})]
Retrieval Augmented Generation (RAG) mit LangChain

PDF-Dateien laden

from langchain_community.document_loaders import PyPDFLoader

pdf_loader = PyPDFLoader('rag_paper.pdf')
documents = pdf_loader.load()
print(documents)
[Document(page_content='Retrieval-Augmented Generation for\nKnowledge-Intensive...',
          metadata={'source': 'Rag Paper.pdf', 'page': 0})]
Retrieval Augmented Generation (RAG) mit LangChain

HTML-Dateien laden

from langchain_community.document_loaders import UnstructuredHTMLLoader

html_loader = UnstructuredHTMLLoader(file_path='path/to/your/file.html')

documents = html_loader.load() first_document = documents[0]
print("Content:", first_document.page_content) print("Metadata:", first_document.metadata)
Content: Welcome to Our Website
Metadata: {'source': 'path/to/your/file.html', 'section': 0}
Retrieval Augmented Generation (RAG) mit LangChain

Lass uns üben!

Retrieval Augmented Generation (RAG) mit LangChain

Preparing Video For Download...