Memuat Dokumen untuk RAG dengan LangChain

Retrieval Augmented Generation (RAG) dengan LangChain

Meri Nova

Machine Learning Engineer

Kenali instruktur Anda...

 

Meri Nova

 

  • Pendiri Break Into Data
  • Machine Learning Engineer
  • Kreator konten di Linkedin dan YouTube

Foto Meri.

Retrieval Augmented Generation (RAG) dengan LangChain

Retrieval Augmented Generation (RAG)

 

  • Keterbatasan LLM: batas pengetahuan

 

RAG: menggabungkan data eksternal dengan LLM

Seseorang memberikan lebih banyak informasi ke LLM dalam bentuk buku.

1 Dihasilkan dengan DALL·E 3
Retrieval Augmented Generation (RAG) dengan LangChain

Alur kerja RAG standar

Seorang pengguna tunggal.

Retrieval Augmented Generation (RAG) dengan LangChain

Alur kerja RAG standar

Kueri pengguna dikirim ke basis data vektor.

Retrieval Augmented Generation (RAG) dengan LangChain

Alur kerja RAG standar

Dokumen relevan diambil dari basis data vektor.

Retrieval Augmented Generation (RAG) dengan LangChain

Alur kerja RAG standar

Dokumen yang diambil ditambahkan ke prompt model.

Retrieval Augmented Generation (RAG) dengan LangChain

Alur kerja RAG standar

Prompt dikirim ke LLM dan keluaran dikembalikan ke pengguna.

Retrieval Augmented Generation (RAG) dengan LangChain

Menyiapkan data untuk pengambilan

Dokumen sedang dimuat.

Retrieval Augmented Generation (RAG) dengan LangChain

Menyiapkan data untuk pengambilan

Dokumen dipecah.

Retrieval Augmented Generation (RAG) dengan LangChain

Menyiapkan data untuk pengambilan

Potongan dokumen di-embed.

Retrieval Augmented Generation (RAG) dengan LangChain

Menyiapkan data untuk pengambilan

Potongan dokumen disimpan.

Retrieval Augmented Generation (RAG) dengan LangChain

Pemuat dokumen

 

  • Integrasikan dokumen dengan sistem AI
  • Mendukung banyak format file umum
  • Pemuatan dokumen pihak ketiga

 

  • CSVLoader
  • PyPDFLoader
  • UnstructuredHTMLLoader

Dokumen sedang dimuat.

Retrieval Augmented Generation (RAG) dengan LangChain

Memuat file CSV

from langchain_community.document_loaders.csv_loader import CSVLoader

csv_loader = CSVLoader(file_path='path/to/your/file.csv')

documents = csv_loader.load() print(documents)
[Document(page_content='Team: Nationals\n"Payroll (millions)": 81.34\n"Wins": 98',
          metadata={'source': 'path/to/your/file.csv', 'row': 0}),
 Document(page_content='Team: Reds\n"Payroll (millions)": 82.20\n"Wins": 97',
          metadata={'source': 'path/to/your/file.csv', 'row': 1}),
 Document(page_content='Team: Yankees\n"Payroll (millions)": 197.96\n"Wins": 95',
          metadata={'source': 'path/to/your/file.csv', 'row': 2})]
Retrieval Augmented Generation (RAG) dengan LangChain

Memuat file PDF

from langchain_community.document_loaders import PyPDFLoader

pdf_loader = PyPDFLoader('rag_paper.pdf')
documents = pdf_loader.load()
print(documents)
[Document(page_content='Retrieval-Augmented Generation for\nKnowledge-Intensive...',
          metadata={'source': 'Rag Paper.pdf', 'page': 0})]
Retrieval Augmented Generation (RAG) dengan LangChain

Memuat file HTML

from langchain_community.document_loaders import UnstructuredHTMLLoader

html_loader = UnstructuredHTMLLoader(file_path='path/to/your/file.html')

documents = html_loader.load() first_document = documents[0]
print("Content:", first_document.page_content) print("Metadata:", first_document.metadata)
Content: Welcome to Our Website
Metadata: {'source': 'path/to/your/file.html', 'section': 0}
Retrieval Augmented Generation (RAG) dengan LangChain

Ayo berlatih!

Retrieval Augmented Generation (RAG) dengan LangChain

Preparing Video For Download...