Upserts bündeln

Vektordatenbanken für Einbettungen mit Pinecone

James Chapman

Curriculum Manager, DataCamp

Einschränkungen beim Upsert

 

  1. Rate der Requests
  2. Größe der Requests

 

  • Batching: Requests in kleinere Chunks aufteilen

 

Pinecone-Rate-Limits

1 https://docs.pinecone.io/reference/quotas-and-limits#rate-limits
Vektordatenbanken für Einbettungen mit Pinecone

Chunking-Funktion definieren

def chunks(iterable, batch_size=100):

it = iter(iterable)
chunk = tuple(itertools.islice(it, batch_size))
while chunk:
yield chunk
chunk = tuple(itertools.islice(it, batch_size))
Vektordatenbanken für Einbettungen mit Pinecone

Sequenzielles Batching

  • Requests aufteilen und nacheinander senden
pc.Pinecone(api_key="YOUR API KEY")
index = pc.Index('datacamp-index')


for chunk in chunks(vectors): index.upsert(vectors=chunk)

Vorteile:

  • Löst Rate- und Größenlimits

Nachteile:

  • Sehr langsam!
Vektordatenbanken für Einbettungen mit Pinecone

Paralleles Batching

  • Requests aufteilen und parallel senden
pc = Pinecone(api_key="YOUR_API_KEY", pool_threads=30)


with pc.Index('datacamp-index', pool_threads=30) as index:
async_results = [index.upsert(vectors=chunk, async_req=True) for chunk in chunks(vectors, batch_size=100)]
[async_result.get() for async_result in async_results]
Vektordatenbanken für Einbettungen mit Pinecone

Lass uns üben!

Vektordatenbanken für Einbettungen mit Pinecone

Preparing Video For Download...