раздел 04

Подходы и хаки

Никакого «обхода лимитов» здесь не будет - это либо нарушение правил, либо миф. Зато есть честная оптимизация: те же задачи за меньший расход окна. Собрал рабочие приёмы.

Короче промпты, меньше файлов

Не грузи лишнее. Чёткий короткий запрос и только нужные файлы тратят меньше токенов, чем простыня из всего подряд.

Новый чат под новую задачу

Старый контекст тащится в каждый ответ. Закончил - открой свежий чат, и расход на ровном месте упадёт.

Prompt caching на API

Если в API повторяешь один и тот же большой кусок контекста - закешируй его. Повторные обращения к нему дешевле и не жгут лимит заново.

Тайминг под сброс окна

Знаешь время сброса - планируй тяжёлое после него. Не выжигай окно прямо перед важной работой.

Запасной доступ

Держи план Б: API или агрегатор вроде OpenRouter. Чат-лимит кончился - переключился и продолжил, а не ждёшь сброса.

Апгрейд, когда окупается

Если регулярно упираешься и работа встаёт - более высокий план дешевле потерянного времени. Но апгрейдь по реальной нужде, а не на всякий случай.

Разные модели под разные задачи

Самый недооценённый приём - не сидеть на одной тяжёлой модели. Раскладывай работу:

Простое и механическое - на лёгкую модель. Дёшево по окну, быстро по времени.
Сложное и ответственное - на тяжёлую. Там, где лёгкая ошибётся, и переделка выйдет дороже.

Как осознанно выбирать модель под задачу - в разделе Выбор модели.

Prompt caching подробнее

Когда работаешь через API и в каждом запросе шлёшь один и тот же большой системный промпт или документ, провайдер умеет его закешировать. Дальше повторные запросы переиспользуют кеш: и платишь меньше, и в rate limit упираешься реже, потому что заново прокачивать этот объём не нужно. Для повторяющихся пайплайнов это серьёзная экономия.