Découpage du texte, embeddings et stockage vectoriel

Retrieval Augmented Generation (RAG) avec LangChain

Meri Nova

Machine Learning Engineer

Préparer les données pour la recherche

Chargement des documents.

Préparer les données pour la recherche

Découpage des documents.

Préparer les données pour la recherche

Les chunks de document sont intégrés.

Préparer les données pour la recherche

Les chunks de document sont stockés.

Préparer les données pour la recherche

L'étape de découpage est mise en évidence dans le workflow RAG.

chunk_size

Une flèche montre que la taille idéale est intermédiaire ; les gros chunks sont lents à récupérer et durs à interpréter, les petits manquent de contexte.

chunk_overlap

Inclure des infos au-delà de la limite

Deux chunks avec une zone qui se chevauche.

CharacterTextSplitter

from langchain_text_splitters import CharacterTextSplitter


text = """Machine learning is a fascinating field.\n\nIt involves algorithms and models that
can learn from data. These models can then make predictions or decisions without being
explicitly programmed to perform the task.\nThis capability is increasingly valuable in
various industries, from finance to healthcare.\n\nThere are many types of machine learning,
including supervised, unsupervised, and reinforcement learning.\nEach type has its own
strengths and applications."""


text_splitter = CharacterTextSplitter(
    separator="\n\n",
    chunk_size=100,  
    chunk_overlap=10  
)

CharacterTextSplitter

chunks = text_splitter.split_text(text)

print(chunks)
print([len(chunk) for chunk in chunks])

['Machine learning is a fascinating field.',
 'It involves algorithms and models that can learn from data. These models can...',
 'There are many types of machine learning, including supervised, unsupervised...']

[40, 260, 155]

Les chunks peuvent manquer de contexte
Les chunks peuvent dépasser chunk_size

RecursiveCharacterTextSplitter

from langchain_text_splitters import RecursiveCharacterTextSplitter

splitter = RecursiveCharacterTextSplitter(

    separators=["\n\n", "\n", " ", ""],

    chunk_size=100,
    chunk_overlap=10

)

RecursiveCharacterTextSplitter

chunks = splitter.split_text(text)

print(chunks)
print([len(chunk) for chunk in chunks])

['Machine learning is a fascinating field.',
 'It involves algorithms and models that can learn from data. These models ...',
 'or decisions without being explicitly programmed to perform the task.',
 'This capability is increasingly valuable in various industries, from ...',
 'There are many types of machine learning, including supervised, ...',
 'learning.',
 'Each type has its own strengths and applications.']
[40, 98, 69, 91, 95, 9, 49]

Découper des documents

from langchain_community.document_loaders import PyPDFLoader

loader = PyPDFLoader("research_paper.pdf")
documents = loader.load()

splitter = RecursiveCharacterTextSplitter(chunk_size=1000, chunk_overlap=200)


chunks = splitter.split_documents(documents)

Découper des documents

print(chunks)

print([len(chunk.page_content) for chunk in chunks])

[Document(metadata={'source': 'Rag Paper.pdf', 'page': 0}, page_content='...'),
 Document(metadata={'source': 'Rag Paper.pdf', 'page': 0}, page_content='...'),
 Document(metadata={'source': 'Rag Paper.pdf', 'page': 0}, page_content='...')]

[928, 946, 921,...]

Embedding et stockage

Les étapes d'embedding et de stockage sont mises en évidence.

Qu'est-ce qu'un embedding ?

Une phrase est envoyée à un modèle d'embedding.

Qu'est-ce qu'un embedding ?

Le modèle d'embedding convertit le texte en vecteur de valeurs numériques.

Qu'est-ce qu'un embedding ?

Intégrer et stocker les chunks

Embedding et stockage avec : OpenAI et ChromaDB

from langchain_openai import OpenAIEmbeddings
from langchain_chroma import Chroma

embedding_model = OpenAIEmbeddings(
    api_key=openai_api_key,
    model="text-embedding-3-small"
)


vector_store = Chroma.from_documents(
    documents=chunks, 
    embedding=embedding_model
)

Passons à la pratique !

Retrieval Augmented Generation (RAG) avec LangChain