Batching

Entwicklung von KI-Systemen mit der OpenAI-API

Francesca Donadoni

Curriculum Manager, DataCamp

Was sind Rate Limits?

Eine Person fährt Auto und wird von einem Polizisten angehalten

Wie Rate Limits entstehen

Zu viele Anfragen

Zu viel Text in der Anfrage

Rate Limits vermeiden

Retry
- Kurze Wartezeit zwischen Anfragen

Batching
- Mehrere Nachrichten in einer Anfrage verarbeiten

Tokens reduzieren
- Anzahl der Tokens messen und senken

Erneut versuchen

from tenacity import (
    retry,
    stop_after_attempt,
    wait_random_exponential
)

@retry(wait=wait_random_exponential(min=1, max=60), stop=stop_after_attempt(6))

Erneut versuchen

@retry(wait=wait_random_exponential(min=1, max=60), stop=stop_after_attempt(6))

def get_response(model, message):
    response = client.chat.completions.create(
      model=model,
      messages=[message],
      response_format={"type": "json_object"}
    )
    return response.choices[0].message.content

Batching

countries = ["United States", "Ireland", "India"]

message=[
    {
    "role": "system",
    "content": """You are given a series of countries and are asked to return the 
    country and capital city. Provide each of the questions with an answer in the 
    response as separate content.""",
    }]


[message.append({"role": "user", "content": i }) for i in countries]

Batching

response = client.chat.completions.create(
      model="gpt-4o-mini",
      messages=message
    )

print(response.choices[0].message.content)

United States: Washington D.C.
Ireland: Dublin
India: New Delhi

Tokens reduzieren

import tiktoken


encoding = tiktoken.encoding_for_model("gpt-4o-mini")

prompt = "Tokens can be full words, or groups of characters commonly grouped 
          together: tokenization."


num_tokens = len(encoding.encode(prompt))

print("Number of tokens in prompt:", num_tokens)

Number of tokens in prompt: 17

Lass uns üben!

Entwicklung von KI-Systemen mit der OpenAI-API

Batching

Was sind Rate Limits?

Wie Rate Limits entstehen

Zu viele Anfragen

Zu viel Text in der Anfrage

Rate Limits vermeiden

Erneut versuchen

Erneut versuchen

Batching

Batching

Tokens reduzieren

Lass uns üben!