Integração de carregadores de documentos

Desenvolvimento de aplicativos de LLM com LangChain

Jonathan Bennion

AI Engineer & LangChain Contributor

Retrieval Augmented Generation (RAG)

  • Use embeddings para recuperar informações relevantes e integrar no prompt.

Um fluxo de trabalho típico de RAG.

Desenvolvimento de aplicativos de LLM com LangChain

Etapas de desenvolvimento do RAG

O fluxo de trabalho geral do RAG: um carregador de documentos, um divisor de documentos e o processo de armazenamento e recuperação.

Desenvolvimento de aplicativos de LLM com LangChain

Carregadores de documentos do LangChain

  • Classes feitas pra carregar e configurar documentos para integração com o sistema
  • Carregadores de documentos para tipos de arquivos comuns: .pdf, .csv
  • Carregadores de terceiros: S3, .ipynb, .wav

document-loader.jpg

1 https://python.langchain.com/docs/integrations/document_loaders
Desenvolvimento de aplicativos de LLM com LangChain

Carregador de documentos PDF

  • Requer instalar o pacote pypdf: pip install pypdf
from langchain_community.document_loaders import PyPDFLoader

loader = PyPDFLoader("path/to/file/attention_is_all_you_need.pdf")
data = loader.load()
print(data[0])
Document(page_content='Provided proper attribution is provided, Google hereby grants 
permission to
reproduce the tables and figures in this paper solely for use in [...]
Desenvolvimento de aplicativos de LLM com LangChain

Carregador de documentos CSV

from langchain_community.document_loaders.csv_loader import CSVLoader


loader = CSVLoader('fifa_countries_audience.csv')
data = loader.load()
print(data[0])
Document(page_content='country: United States
confederation: CONCACAF
population_share: [...]
Desenvolvimento de aplicativos de LLM com LangChain

Carregador de documentos HTML

  • Precisa instalar o pacote unstructured: pip install unstructured
from langchain_community.document_loaders import UnstructuredHTMLLoader


loader = UnstructuredHTMLLoader("white_house_executive_order_nov_2023.html") data = loader.load()
print(data[0])
print(data[0].metadata)
page_content="To search this site, enter a search term
Search
Executive Order on the Safe, Secure,
and Trustworthy Development and Use of Artificial Intelligence
Home
Briefing Room

Presidential
Actions
By the authority vested in me as President by the Constitution and the laws of the United
States of America, it is hereby ordered as follows: ..."

{'source': 'white_house_executive_order_nov_2023.html'}
Desenvolvimento de aplicativos de LLM com LangChain

Vamos praticar!

Desenvolvimento de aplicativos de LLM com LangChain

Preparing Video For Download...