Chargement et découpage de fichiers de code

Retrieval Augmented Generation (RAG) avec LangChain

Meri Nova

Machine Learning Engineer

Plus de chargeurs de documents…

Une sélection de différents formats de fichiers.

Le markdown brut utilisé pour créer le fichier README dans le dépôt GitHub de LangChain.

Markdown rendu depuis le fichier README.md de LangChain sur GitHub.

Charger des fichiers Markdown (.md)

from langchain_community.document_loaders import UnstructuredMarkdownLoader


loader = UnstructuredMarkdownLoader("README.md")

markdown_content = loader.load()
print(markdown_content[0])

Document(page_content='# Discord Text Classification ![Python Version](https...'
         metadata={'source': 'README.md'})

Charger des fichiers Python (.py)

from abc import ABC, abstractmethod

class LLM(ABC):
  @abstractmethod
  def complete_sentence(self, prompt):
    pass

...

Intégré dans les applis RAG pour écrire/réparer du code, créer de la doc, etc.
Imports, classes, fonctions, etc.

from langchain_community.document_loaders \
    import PythonLoader

loader = PythonLoader('chatbot.py')


python_data = loader.load()
print(python_data[0])

Document(page_content='from abc import ABC, ...

class LLM(ABC):
  @abstractmethod
...',
metadata={'source': 'chatbot.py'})

Découper des fichiers de code

python_splitter = RecursiveCharacterTextSplitter(
    chunk_size=150, chunk_overlap=10
)


chunks = python_splitter.split_documents(python_data)
for i, chunk in enumerate(chunks[:3]):
    print(f"Chunk {i+1}:\n{chunk.page_content}\n")

Chunk 1:
from abc import ABC, abstractmethod

class LLM(ABC):
  @abstractmethod
  def complete_sentence(self, prompt):
    pass

Chunk 2:
class OpenAI(LLM):
  def complete_sentence(self, prompt):
    return prompt + " ... OpenAI end of sentence."

class Anthropic(LLM):

Chunk 3:
def complete_sentence(self, prompt):
    return prompt + " ... Anthropic end of sentence."

Découper par langage

separators
- ["\n\n", "\n", " ", ""]
- ["\nclass ", "\ndef ", "\n\tdef ", "\n\n", " ", ""]

from langchain_text_splitters import RecursiveCharacterTextSplitter, Language

python_splitter = RecursiveCharacterTextSplitter.from_language(

    language=Language.PYTHON, chunk_size=150, chunk_overlap=10

)


chunks = python_splitter.split_documents(data)


for i, chunk in enumerate(chunks[:3]):
    print(f"Chunk {i+1}:\n{chunk.page_content}\n")

Chunk 1:
from abc import ABC, abstractmethod

Chunk 2:
class LLM(ABC):
  @abstractmethod
  def complete_sentence(self, prompt):
    pass

Chunk 3:
class OpenAI(LLM):
  def complete_sentence(self, prompt):

Passons à la pratique !

Retrieval Augmented Generation (RAG) avec LangChain