Vectors opvragen

Vector-databases voor embeddings met Pinecone

James Chapman

Curriculum Manager, DataCamp

De kracht van queryen

 

  • Queryen: de meest semantisch vergelijkbare vectoren ophalen bij een invoervector

Een gebruikersinvoer die wordt ge-embed en gebruikt om een Pinecone-vectordatabank te queryen.

Vector-databases voor embeddings met Pinecone

De .query()-methode

index.query(

vector=[-0.250919762305275, ...],
top_k=3
)
{'matches': [{'id': '1', 'score': 0.0478537641, 'values': []},
             {'id': '2', 'score': 0.046000585, 'values': []},
             {'id': '3', 'score': 0.0458319113, 'values': []}],
 'namespace': '',
 'usage': {'read_units': 5}}
Vector-databases voor embeddings met Pinecone

De .query()-methode

index.query(
    vector=[-0.250919762305275, ...],
    top_k=3,

include_values=True
)
{'matches': [{'id': '1', 'score': 0.0478537641, 'values': [-0.0131468913, ...]},
             {'id': '2', 'score': 0.046000585, 'values': [-0.0120476764, ...]},
             {'id': '3', 'score': 0.0458319113, 'values': [0.00285418332, ...]}],
 'namespace': '',
 'usage': {'read_units': 5}}
Vector-databases voor embeddings met Pinecone

Read units (RUs) voor queryen

 

  • Voor queryen zijn RUs moeilijker te schatten
  • Hangt af van:
    • Aantal records in de namespace
    • Grootte van records
      • Dimensionaliteit van vectoren
      • Hoeveelheid metadata

Tabel met RUs die worden verbruikt bij queryen.

1 https://docs.pinecone.io/guides/organizations/manage-cost/understanding-cost#query
Vector-databases voor embeddings met Pinecone

Afstandsmetrics

 

Cosinusovereenkomst: toont de hoek tussen twee vectoren.

1 https://docs.pinecone.io/guides/indexes/understanding-indexes#distance-metrics
Vector-databases voor embeddings met Pinecone

Afstandsmetrics

 

Euclidische afstand: toont de rechte lijn tussen twee vectoren.

1 https://docs.pinecone.io/guides/indexes/understanding-indexes#distance-metrics
Vector-databases voor embeddings met Pinecone

Afstandsmetrics

 

Inwendig product: waarde berekend uit de hoek tussen vectoren.

1 https://docs.pinecone.io/guides/indexes/understanding-indexes#distance-metrics
Vector-databases voor embeddings met Pinecone

De afstandsmetric instellen

pc.create_index(
    name="datacamp-index", 
    dimension=1536,

metric='dotproduct',
spec=ServerlessSpec( cloud='aws', region='us-east-1' ) )
  • metric'cosine', 'euclidean', 'dotproduct'
Vector-databases voor embeddings met Pinecone

Jouw beurt om te queryen!

Vector-databases voor embeddings met Pinecone

Preparing Video For Download...