Otimização de IA: velocidade, custo e qualidade

Codificação com IA para Desenvolvedores

Francesca Donadoni

AI Curriculum Manager, DataCamp

Métricas

Latência (tempo de resposta): Tempo que o modelo leva para gerar uma resposta

Métricas

Latência (tempo de resposta): Tempo que o modelo leva para gerar uma resposta

$$

Custo por token (por 1M tokens): Custo monetário de usar um modelo de IA

Métricas

Latência (tempo de resposta): Tempo que o modelo leva para gerar uma resposta

$$

Custo por token (por 1M tokens): Custo monetário de usar um modelo de IA

$$

Qualidade (taxa de sucesso em testes/cobertura): Frequência com que o código gerado funciona como esperado

Benchmarking de modelos

$$

¹ https://github.com/openai/human-eval

Benchmarking de modelos

$$

¹ https://github.com/bigcode-project/bigcodebench

Benchmarking de modelos

$$

¹ https://github.com/SWE-bench/SWE-bench

Benchmarking de modelos

$$

¹ https://github.com/JohnnyPeng18/Coffe

Versionamento de prompts

Versionamento de prompts

Versionamento de prompts

Cache de prompts

O cache funciona armazenando:
- Prompt
- Entrada
- Modelo
- Temperatura

Vamos praticar!

Codificação com IA para Desenvolvedores

Preparing Video For Download...