раздел 05

Шпаргалка

Типы лимитов

| Тип | Где | Что считает | Сброс | | --- | --- | --- | --- | | Session (5hr) | Чат-подписка | Использование за скользящие 5 часов | Скользит, отпускает по мере выпадения старых запросов | | Weekly (7 day) | Чат-подписка | Использование за неделю | Раз в 7 дней | | Weekly на модель | Чат-подписка | Отдельное недельное окно под конкретную модель (например Sonnet) | Раз в 7 дней | | RPM | API | Запросов в минуту | Каждую минуту | | TPM | API | Токенов в минуту | Каждую минуту |

Чек-лист экономии лимита

  • Держи экран лимитов под рукой и поглядывай перед тяжёлым заходом.
  • Новая задача - новый чат, чтобы не таскать старый контекст.
  • Не грузи лишние файлы, держи промпты короткими и по делу.
  • Простое - на лёгкую модель, тяжёлую береги под сложное.
  • Разноси большую работу по сессиям, не выжигай окно разом.
  • Планируй тяжёлое вокруг времени сброса.
  • На API используй prompt caching для повторяющегося контекста.
  • Держи запасной доступ (API или агрегатор) на случай, когда чат-лимит кончился.
  • Апгрейди план, только когда регулярно упираешься и это окупается.

Глоссарий

Rate limit
Потолок интенсивности обращений к API. Обычно выражен через RPM и TPM. Превысил - запрос возвращает ошибку «слишком часто», нужно притормозить.
RPM
Requests per minute - сколько запросов в минуту разрешено слать в API. Один из rate limits.
TPM
Tokens per minute - сколько токенов в минуту можно прокачать через API. Второй основной rate limit.
Окно сброса
Период, за который считается использование в подписке (сессия, неделя). По истечении окна счётчик обнуляется или скользящее окно отпускает.
Tier
Уровень доступа в API, от которого зависят RPM и TPM. Растёт по мере истории твоих платежей. Защита от абьюза новыми аккаунтами.
Скользящее окно
Окно, которое считает использование за последние N часов от текущего момента, а не от фиксированного времени. Отпускает постепенно.

Куда дальше