раздел 04 · подстраница 1

Кэширование контекста

Что это

Кэширование контекста (prompt caching) - это скидка на повторно используемый кусок промпта. Если в каждом запросе у вас есть одинаковое начало (большая системная инструкция, справочник, документ, набор примеров), провайдер может запомнить уже обработанную часть и при следующих запросах брать за неё дешевле.

Зачем

Многие сценарии раз за разом гоняют один и тот же большой контекст: чат-бот с длинной инструкцией, ассистент поверх одного и того же документа, агент с фиксированным набором правил. Без кэша вы платите за этот контекст по полной на каждом запросе. С кэшем - платите полную цену один раз, а дальше за тот же кусок берут со скидкой.

Как это работает

Идея в том, что у запросов общее начало (префикс):

[ большой общий контекст: инструкция + документ ][ переменная часть: вопрос пользователя ]
|------------- кэшируется, дёшево при повторе ----|----------- считается заново ----------|

Первый запрос - общий контекст обрабатывается и кладётся в кэш. Платите за него полную цену (иногда чуть дороже - запись в кэш).
Следующие запросы - пока префикс совпадает, за него берут сильно меньше (типичная скидка - заметная доля от обычной цены input). Платите полную цену только за новую переменную часть.

Когда выгодно

Один большой контекст и много запросов к нему - идеальный случай.
Длинная системная инструкция, которая не меняется от запроса к запросу.
Документ, по которому пользователи задают разные вопросы.

Когда невыгодно: каждый запрос уникален с самого начала, общего префикса нет - кэшировать нечего.

Пример

Чат-бот по инструкции на 20 000 токенов, 1000 запросов в день.

Без кэша: 1000 × 20 000 = 20M входных токенов в день только на инструкцию.
С кэшем: полная цена за 20 000 токенов один раз (плюс периодические обновления кэша), остальные запросы платят за инструкцию со скидкой.

Экономия на повторяющемся контексте может выйти в разы. Точные цифры скидки и срок жизни кэша смотрите в документации провайдера - это ориентир, не точное правило.

Антипаттерны

Класть изменяемое в начало запроса. Сломаете префикс - кэш не сработает.
Менять инструкцию по мелочи каждый раз. Любое изменение начала обнуляет кэш.
Рассчитывать на кэш там, где запросы всегда разные. Кэшу нужен общий повторяющийся кусок.

Что дальше

Кэш - один из способов платить меньше. Дальше соберём все приёмы экономии токенов вместе: короткий контекст, переиспользование, выбор модели.