раздел 04
Подходы и хаки
Никакого «обхода лимитов» здесь не будет - это либо нарушение правил, либо миф. Зато есть честная оптимизация: те же задачи за меньший расход окна. Собрал рабочие приёмы.
Короче промпты, меньше файлов
Не грузи лишнее. Чёткий короткий запрос и только нужные файлы тратят меньше токенов, чем простыня из всего подряд.
Новый чат под новую задачу
Старый контекст тащится в каждый ответ. Закончил - открой свежий чат, и расход на ровном месте упадёт.
Prompt caching на API
Если в API повторяешь один и тот же большой кусок контекста - закешируй его. Повторные обращения к нему дешевле и не жгут лимит заново.
Тайминг под сброс окна
Знаешь время сброса - планируй тяжёлое после него. Не выжигай окно прямо перед важной работой.
Запасной доступ
Держи план Б: API или агрегатор вроде OpenRouter. Чат-лимит кончился - переключился и продолжил, а не ждёшь сброса.
Апгрейд, когда окупается
Если регулярно упираешься и работа встаёт - более высокий план дешевле потерянного времени. Но апгрейдь по реальной нужде, а не на всякий случай.
Разные модели под разные задачи
Самый недооценённый приём - не сидеть на одной тяжёлой модели. Раскладывай работу:
- Простое и механическое - на лёгкую модель. Дёшево по окну, быстро по времени.
- Сложное и ответственное - на тяжёлую. Там, где лёгкая ошибётся, и переделка выйдет дороже.
Как осознанно выбирать модель под задачу - в разделе Выбор модели.
Prompt caching подробнее
Когда работаешь через API и в каждом запросе шлёшь один и тот же большой системный промпт или документ, провайдер умеет его закешировать. Дальше повторные запросы переиспользуют кеш: и платишь меньше, и в rate limit упираешься реже, потому что заново прокачивать этот объём не нужно. Для повторяющихся пайплайнов это серьёзная экономия.