Melhorando a recuperação no grafo

Retrieval Augmented Generation (RAG) com LangChain

Meri Nova

Machine Learning Engineer

Técnicas

Principal limitação: confiabilidade da tradução usuário → Cypher

Estratégias para melhorar a recuperação no grafo:

  • Filtrar o esquema do grafo
  • Validar a consulta Cypher
  • Prompting few-shot
Retrieval Augmented Generation (RAG) com LangChain

Filtragem

from langchain_community.chains.graph_qa.cypher import GraphCypherQAChain

llm = ChatOpenAI(api_key="...", model="gpt-4o-mini", temperature=0)

chain = GraphCypherQAChain.from_llm(
graph=graph, llm=llm, exclude_types=["Concept"], verbose=True
)
print(graph.get_schema)
Propriedades dos nós:
Document {title: STRING, id: STRING, text: STRING, summary: STRING, source: STRING}
Organization {id: STRING}
Retrieval Augmented Generation (RAG) com LangChain

Validando a consulta Cypher

  • Dificuldade em interpretar a direção dos relacionamentos
chain = GraphCypherQAChain.from_llm(
    graph=graph, llm=llm, verbose=True, validate_cypher=True
)
  1. Detecta nós e relacionamentos
  2. Determina as direções dos relacionamentos
  3. Verifica o esquema do grafo
  4. Atualiza a direção dos relacionamentos
Retrieval Augmented Generation (RAG) com LangChain

Prompting few-shot

examples = [
    {
        "question": "How many notable large language models are mentioned in the article?",
        "query": "MATCH (m:Concept {id: 'Large Language Model'}) RETURN count(DISTINCT m)",
    },
    {
        "question": "Which companies or organizations have developed the large language models mentioned?",
        "query": "MATCH (o:Organization)-[:DEVELOPS]->(m:Concept {id: 'Large Language Model'}) RETURN DISTINCT o.id",
    },
    {
        "question": "What is the largest model size mentioned in the article, in terms of number of parameters?",
        "query": "MATCH (m:Concept {id: 'Large Language Model'}) RETURN max(m.parameters) AS largest_model",
    },
]
Retrieval Augmented Generation (RAG) com LangChain

Implementando o prompting few-shot

from langchain_core.prompts import FewShotPromptTemplate, PromptTemplate

example_prompt = PromptTemplate.from_template( "User input: {question}\nCypher query: {query}" )
cypher_prompt = FewShotPromptTemplate( examples=examples, example_prompt=example_prompt, prefix="Você é especialista em Neo4j. Dada uma pergunta, crie uma consulta Cypher sintaticamente correta para executar.\n\nAqui estão as informações do esquema\n{schema}.\n\n Abaixo há exemplos de perguntas e suas consultas Cypher correspondentes.", suffix="User input: {question}\nCypher query: ", input_variables=["question"], )
Retrieval Augmented Generation (RAG) com LangChain

Prompt completo

Você é especialista em Neo4j. Dada uma pergunta, crie uma consulta Cypher sintaticamente correta para executar.

Abaixo há exemplos de perguntas e suas consultas Cypher correspondentes.

User input: How many notable large language models are mentioned in the article?
Cypher query: MATCH (p:Paper) RETURN count(DISTINCT p)

User input: Which companies or organizations have developed the large language models?
Cypher query: MATCH (o:Organization)-[:DEVELOPS]->(m:Concept {id: 'Large Language Model'}) RETURN DISTINCT o.id

User input: What is the largest model size mentioned in the article, in terms of number of parameters?
Cypher query: MATCH (m:Concept {id: 'Large Language Model'}) RETURN max(m.parameters) AS largest_model

User input: How many papers were published in 2016?
Cypher query:
Retrieval Augmented Generation (RAG) com LangChain

Adicionando os exemplos few-shot

chain = GraphCypherQAChain.from_llm(
    graph=graph, llm=llm, cypher_prompt=cypher_prompt,
    verbose=True, validate_cypher=True
)
Retrieval Augmented Generation (RAG) com LangChain

Vamos praticar!

Retrieval Augmented Generation (RAG) com LangChain

Preparing Video For Download...