раздел 04

Как снизить расходы

Следить - полдела. Вторая половина - платить меньше за тот же результат. Вот рычаги, от самого простого к продвинутому.

Базовая страховка: лимиты у провайдеров

Первым делом - в кабинете каждого сервиса включите жёсткие лимиты и алерты. У OpenAI это usage limits и budget-алерты, у Anthropic и других - аналогично. Это не экономит, но защищает от катастрофического счёта при ошибке или утечке ключа.

Рычаги экономии

Кэш промптов (prompt caching)

Если часть запроса повторяется (системный промпт, документы) - провайдеры кэшируют её дешевле. Большая экономия на повторяющемся контексте.

Кэш ответов

Одинаковые запросы не гонять в модель повторно - отдавать сохранённый ответ. Особенно для типовых вопросов.

Дешёвая модель под задачу

Не брать флагман на всё. Простое - на лёгкой модели, сложное - на топовой. Подробно в курсе выбора модели.

Контроль длины

Короче контекст и ответ (max tokens) - меньше токенов - меньше счёт. Не пихать в запрос лишнее.

Компрессия контекста

Сжимать длинный контекст перед отправкой. Встречаются drop-in прокси (например Entroly), которые делают это автоматически.

Батчи и асинхронность

Для офлайн-задач - батч-API провайдеров часто дешевле обычного.

Где экономия настоящая

Главные деньги почти всегда в токенах - чем длиннее контекст и ответы и чем дороже модель, тем больше счёт. Поэтому самые сильные рычаги: кэш повторяющегося контекста, выбор модели под задачу и контроль длины. Как считается цена в токенах - в курсе Токены. Как выбирать модель - Выбор модели под задачу.