раздел 04
Как снизить расходы
Следить - полдела. Вторая половина - платить меньше за тот же результат. Вот рычаги, от самого простого к продвинутому.
Базовая страховка: лимиты у провайдеров
Первым делом - в кабинете каждого сервиса включите жёсткие лимиты и алерты. У OpenAI это usage limits и budget-алерты, у Anthropic и других - аналогично. Это не экономит, но защищает от катастрофического счёта при ошибке или утечке ключа.
Рычаги экономии
Кэш промптов (prompt caching)
Если часть запроса повторяется (системный промпт, документы) - провайдеры кэшируют её дешевле. Большая экономия на повторяющемся контексте.
Кэш ответов
Одинаковые запросы не гонять в модель повторно - отдавать сохранённый ответ. Особенно для типовых вопросов.
Дешёвая модель под задачу
Не брать флагман на всё. Простое - на лёгкой модели, сложное - на топовой. Подробно в курсе выбора модели.
Контроль длины
Короче контекст и ответ (max tokens) - меньше токенов - меньше счёт. Не пихать в запрос лишнее.
Компрессия контекста
Сжимать длинный контекст перед отправкой. Встречаются drop-in прокси (например Entroly), которые делают это автоматически.
Батчи и асинхронность
Для офлайн-задач - батч-API провайдеров часто дешевле обычного.
Где экономия настоящая
Главные деньги почти всегда в токенах - чем длиннее контекст и ответы и чем дороже модель, тем больше счёт. Поэтому самые сильные рычаги: кэш повторяющегося контекста, выбор модели под задачу и контроль длины. Как считается цена в токенах - в курсе Токены. Как выбирать модель - Выбор модели под задачу.