Retrieval Augmented Generation (RAG) mit LangChain
Meri Nova
Machine Learning Engineer

Chunks als einzelnen Vektor mit nicht-null Komponenten encodieren

Chunks als einzelnen Vektor mit nicht-null Komponenten encodieren

Encodierung per Wortabgleich mit überwiegend Null-Komponenten

TF-IDF: Encodiert Dokumente über Wörter, die sie einzigartig machen

BM25: Dämpft den Einfluss hochfrequenter Wörter auf die Encodierung
from langchain_community.retrievers import BM25Retrieverchunks = [ "Python was created by Guido van Rossum and released in 1991.", "Python is a popular language for machine learning (ML).", "The PyTorch library is a popular Python library for AI and ML." ]bm25_retriever = BM25Retriever.from_texts(chunks, k=3)
results = bm25_retriever.invoke("When was Python created?")
print("Most Relevant Document:")
print(results[0].page_content)
Most Relevant Document:
Python was created by Guido van Rossum and released in 1991.
retriever = BM25Retriever.from_documents( documents=chunks, k=5 )chain = ({"context": retriever, "question": RunnablePassthrough()} | prompt | llm | StrOutputParser() )
print(chain.invoke("How can LLM hallucination impact a RAG application?"))
Die RAG-App kann Antworten erzeugen, die themenfremd oder ungenau sind.
Retrieval Augmented Generation (RAG) mit LangChain