Toplu upsert işlemleri

Pinecone ile Vektör Veritabanları ve Embeddings

James Chapman

Curriculum Manager, DataCamp

Upsert kısıtları

 

  1. İstek hızı
  2. İstek boyutu

 

  • Toplu gönderim: istekleri küçük parçalara ayırma

 

Pinecone hız limitleri

1 https://docs.pinecone.io/reference/quotas-and-limits#rate-limits
Pinecone ile Vektör Veritabanları ve Embeddings

Parçalama fonksiyonu tanımlama

def chunks(iterable, batch_size=100):

it = iter(iterable)
chunk = tuple(itertools.islice(it, batch_size))
while chunk:
yield chunk
chunk = tuple(itertools.islice(it, batch_size))
Pinecone ile Vektör Veritabanları ve Embeddings

Sıralı toplu gönderim

  • İstekleri bölüp teker teker sırayla gönderme
pc.Pinecone(api_key="YOUR API KEY")
index = pc.Index('datacamp-index')


for chunk in chunks(vectors): index.upsert(vectors=chunk)

Artıları:

  • Hız ve boyut limitlerini çözer

Eksileri:

  • Çok yavaş!
Pinecone ile Vektör Veritabanları ve Embeddings

Paralel toplu gönderim

  • İstekleri bölüp paralel gönderme
pc = Pinecone(api_key="YOUR_API_KEY", pool_threads=30)


with pc.Index('datacamp-index', pool_threads=30) as index:
async_results = [index.upsert(vectors=chunk, async_req=True) for chunk in chunks(vectors, batch_size=100)]
[async_result.get() for async_result in async_results]
Pinecone ile Vektör Veritabanları ve Embeddings

Hadi pratik yapalım!

Pinecone ile Vektör Veritabanları ve Embeddings

Preparing Video For Download...