раздел 05

Что выбрать и шпаргалка

Дерево решений

  • 1-2 сервиса, личное использование - включите лимиты и алерты в кабинетах провайдеров. Этого хватит, ничего ставить не нужно.
  • Несколько сервисов, хочу видеть всё в одном месте, код менять лень - лёгкий мониторинг (Helicone, Langfuse) или узкий «spend guard»-инструмент, читающий ключи.
  • Команда, много сервисов, нужны жёсткие бюджеты и виртуальные ключи - шлюз LiteLLM (self-host) или облачный OpenRouter. Всё через один слой.
  • Расходы кусаются - сверху наложите экономию: кэш промптов, дешёвые модели под задачу, контроль длины (раздел 04).

Сравнение подходов

| Подход | Что даёт | Менять код | Кому | | --- | --- | --- | --- | | Лимиты у провайдеров | Защита от катастрофы | Нет | Всем как базу | | Мониторинг | Видимость и алерты | Почти нет | Не хочу шлюз | | Шлюз (LiteLLM, OpenRouter) | Учёт, бюджеты, лимиты, ключи | Поменять base URL | Команды, продакшен | | Снижение расходов | Платить меньше | Зависит | Когда счёт большой |

Чек-лист контроля расходов

  • [ ] В каждом сервисе включены лимиты и алерты по бюджету.
  • [ ] Ключи в .env, по отдельному на проект, утёкшие отзываются.
  • [ ] Есть одно место, где видно суммарные расходы (мониторинг или шлюз).
  • [ ] Настроен алерт при превышении порога трат за период.
  • [ ] Для тяжёлых сценариев включён кэш и выбрана модель под задачу.

Словарь терминов

| Термин | Что это | | --- | --- | | Gateway / шлюз | Прокси-слой, через который идут все запросы к LLM; считает и ограничивает расходы. | | Виртуальный ключ | Выданный шлюзом ключ с лимитом и сроком вместо настоящего ключа провайдера. | | Cost tracking | Учёт расходов по запросам, моделям, проектам. | | Rate limit | Ограничение частоты запросов. | | Prompt caching | Дешёвое переиспользование повторяющейся части запроса. | | Drop-in proxy | Прокси, который встаёт «между» без переписывания кода (поменять адрес). |

Куда дальше