Kostenbeheer
LLMOps-concepten
Max Knobbout, PhD
Applied Scientist, Uber
LLM-levenscyclus: kostenbeheer
Kostenbeheer
- Focus ligt op modelkosten
- Kosten kunnen oplopen door hosting en/of gebruik
- Bij self-hosted modellen komen kosten door hosting
- Bij extern gehoste modellen komen kosten door gebruik
LLM-kosten uitsplitsen
Self-hosted (open source)
- Cloud:
- Hoe lang de server actief is
- On-premise:
- Hardwarekosten
- Onderhoud en elektriciteit
Extern gehost (propriëtair)
- Propriëtair:
- Het aantal calls
- Het aantal tokens per call
Strategie 1: Kies het juiste model
- Kies het meest kostenefficiënte model dat de taak toch uitvoert
- Gebruik meerdere kleinere taakspecifieke modellen
- Overweeg bij self-hosting technieken om modelgrootte te verkleinen
Strategie 2: Optimaliseer prompts
- Gebruik automatische promptcompressie
- Inhoud beperken:
- Optimaliseer beheer van "chatgeheugen"
- Optimaliseer RAG om minder resultaten te geven
Strategie 3: Optimaliseer het aantal calls
- Gebruik batching
- Gebruik caching van antwoorden (indien toepasbaar)
- Optimaliseer (en beperk) agent-calls
- Stel quota en rate limits in
- Overweeg taken zonder LLMs
Kostencijfers en prognose
- Belangrijk om te volgen:
- Bij self-hosted: kosten per machine per tijdseenheid
- Bij extern gehost: kosten per sessie
- Begrijp de groei van je gebruikersbasis en hoe kosten meegroeien
Laten we oefenen!
LLMOps-concepten
Preparing Video For Download...