раздел 02

Шлюзы: всё через один слой

Шлюз (gateway, прокси) - это сервис-посредник, через который идут все ваши запросы к разным LLM. Вы меняете в коде только адрес: вместо api.openai.com указываете адрес шлюза, дальше он сам ходит к нужному провайдеру. А поскольку через него проходит каждый запрос - он видит и считает всё.

Что даёт шлюз

Единый API и учёт
Один формат запроса ко всем провайдерам и единый счётчик расходов по проектам, ключам, моделям.
Бюджеты и лимиты
Жёсткие потолки: на ключ, команду, проект. Превысил бюджет - запросы блокируются, а не копят счёт.
Виртуальные ключи
Раздаёте команде не настоящие ключи провайдеров, а виртуальные - с лимитом и сроком. Утёк - отозвали один.
Маршрутизация и фолбэки
Упал один провайдер - запрос уходит к другому. Можно направлять на более дешёвую модель.

LiteLLM - де-факто стандарт

LiteLLM (репозиторий BerriAI/litellm на GitHub) - самый популярный открытый шлюз. Поддерживает 100+ провайдеров (OpenAI, Anthropic, Groq, Vertex AI, Bedrock, Azure и др.) через единый OpenAI-совместимый формат. В режиме прокси даёт ровно то, что нужно для контроля: cost tracking, бюджеты, rate limiting, виртуальные ключи, логирование. Можно поднять у себя (self-hosted) или взять облачную версию.

Другие шлюзы

OpenRouter
Облачный шлюз к сотням моделей с единым счётом и статистикой расходов - без своего хостинга. Подробно в курсе.
Portkey
AI-gateway с акцентом на наблюдаемость, кэш, бюджеты и роутинг. Облако или self-host.
Cloudflare AI Gateway
Прокси-слой от Cloudflare: аналитика, логи, кэш, лимиты поверх ваших провайдеров.
Из поиска по GitHub
Встречаются и менее известные шлюзы с биллингом и admin-панелью (например COAI). Проверяйте свежесть и поддержку проекта.

Про OpenRouter как готовый облачный вариант - отдельный курс OpenRouter. Про то, как вообще устроен вызов LLM по API - Нейронки по API напрямую.

Минус шлюза

Через шлюз проходит весь трафик - это единая точка отказа и ещё один сервис, который надо держать (если self-hosted). Поэтому для одного-двух сервисов он избыточен: проще лимиты руками или лёгкий мониторинг (раздел 03).