раздел 05
Что выбрать и шпаргалка
Дерево решений
- 1-2 сервиса, личное использование - включите лимиты и алерты в кабинетах провайдеров. Этого хватит, ничего ставить не нужно.
- Несколько сервисов, хочу видеть всё в одном месте, код менять лень - лёгкий мониторинг (Helicone, Langfuse) или узкий «spend guard»-инструмент, читающий ключи.
- Команда, много сервисов, нужны жёсткие бюджеты и виртуальные ключи - шлюз
LiteLLM(self-host) или облачныйOpenRouter. Всё через один слой. - Расходы кусаются - сверху наложите экономию: кэш промптов, дешёвые модели под задачу, контроль длины (раздел 04).
Сравнение подходов
| Подход | Что даёт | Менять код | Кому | | --- | --- | --- | --- | | Лимиты у провайдеров | Защита от катастрофы | Нет | Всем как базу | | Мониторинг | Видимость и алерты | Почти нет | Не хочу шлюз | | Шлюз (LiteLLM, OpenRouter) | Учёт, бюджеты, лимиты, ключи | Поменять base URL | Команды, продакшен | | Снижение расходов | Платить меньше | Зависит | Когда счёт большой |
Чек-лист контроля расходов
- [ ] В каждом сервисе включены лимиты и алерты по бюджету.
- [ ] Ключи в
.env, по отдельному на проект, утёкшие отзываются. - [ ] Есть одно место, где видно суммарные расходы (мониторинг или шлюз).
- [ ] Настроен алерт при превышении порога трат за период.
- [ ] Для тяжёлых сценариев включён кэш и выбрана модель под задачу.
Словарь терминов
| Термин | Что это | | --- | --- | | Gateway / шлюз | Прокси-слой, через который идут все запросы к LLM; считает и ограничивает расходы. | | Виртуальный ключ | Выданный шлюзом ключ с лимитом и сроком вместо настоящего ключа провайдера. | | Cost tracking | Учёт расходов по запросам, моделям, проектам. | | Rate limit | Ограничение частоты запросов. | | Prompt caching | Дешёвое переиспользование повторяющейся части запроса. | | Drop-in proxy | Прокси, который встаёт «между» без переписывания кода (поменять адрес). |
Куда дальше
- OpenRouter - готовый облачный шлюз с единым счётом.
- Нейронки по API напрямую - как вообще устроен вызов LLM по API.
- Токены - за что именно идёт оплата и где сэкономить.
- Выбор модели под задачу - не переплачивать за неподходящую модель.