Integrazione dei caricamenti di documenti

Sviluppare applicazioni LLM con LangChain

Jonathan Bennion

AI Engineer & LangChain Contributor

Retrieval Augmented Generation (RAG)

  • Usa le embedding per recuperare info rilevanti da integrare nel prompt

Un tipico workflow RAG.

Sviluppare applicazioni LLM con LangChain

Fasi di sviluppo RAG

Workflow RAG generale: loader di documenti, splitter, quindi archiviazione e recupero.

Sviluppare applicazioni LLM con LangChain

Loader di documenti LangChain

  • Classi per caricare e configurare documenti per l'integrazione
  • Loader per tipi comuni: .pdf, .csv
  • Loader di terze parti: S3, .ipynb, .wav

document-loader.jpg

1 https://python.langchain.com/docs/integrations/document_loaders
Sviluppare applicazioni LLM con LangChain

Loader di documenti PDF

  • Richiede l'installazione del pacchetto pypdf: pip install pypdf
from langchain_community.document_loaders import PyPDFLoader

loader = PyPDFLoader("path/to/file/attention_is_all_you_need.pdf")
data = loader.load()
print(data[0])
Document(page_content='Provided proper attribution is provided, Google hereby grants 
permission to\nreproduce the tables and figures in this paper solely for use in [...]
Sviluppare applicazioni LLM con LangChain

Loader di documenti CSV

from langchain_community.document_loaders.csv_loader import CSVLoader


loader = CSVLoader('fifa_countries_audience.csv')
data = loader.load()
print(data[0])
Document(page_content='country: United States\nconfederation: CONCACAF\npopulation_share: [...]
Sviluppare applicazioni LLM con LangChain

Loader di documenti HTML

  • Richiede l'installazione del pacchetto unstructured: pip install unstructured
from langchain_community.document_loaders import UnstructuredHTMLLoader


loader = UnstructuredHTMLLoader("white_house_executive_order_nov_2023.html") data = loader.load()
print(data[0])
print(data[0].metadata)
page_content="To search this site, enter a search term\n\nSearch\n\nExecutive Order on the Safe, Secure,
and Trustworthy Development and Use of Artificial Intelligence\n\nHome\n\nBriefing Room\n\nPresidential
Actions\n\nBy the authority vested in me as President by the Constitution and the laws of the United
States of America, it is hereby ordered as follows: ..."

{'source': 'white_house_executive_order_nov_2023.html'}
Sviluppare applicazioni LLM con LangChain

Ayo berlatih!

Sviluppare applicazioni LLM con LangChain

Preparing Video For Download...