раздел 04 · подстраница 1
Кэширование контекста
Что это
Кэширование контекста (prompt caching) - это скидка на повторно используемый кусок промпта. Если в каждом запросе у вас есть одинаковое начало (большая системная инструкция, справочник, документ, набор примеров), провайдер может запомнить уже обработанную часть и при следующих запросах брать за неё дешевле.
Зачем
Многие сценарии раз за разом гоняют один и тот же большой контекст: чат-бот с длинной инструкцией, ассистент поверх одного и того же документа, агент с фиксированным набором правил. Без кэша вы платите за этот контекст по полной на каждом запросе. С кэшем - платите полную цену один раз, а дальше за тот же кусок берут со скидкой.
Как это работает
Идея в том, что у запросов общее начало (префикс):
[ большой общий контекст: инструкция + документ ][ переменная часть: вопрос пользователя ]
|------------- кэшируется, дёшево при повторе ----|----------- считается заново ----------|
- Первый запрос - общий контекст обрабатывается и кладётся в кэш. Платите за него полную цену (иногда чуть дороже - запись в кэш).
- Следующие запросы - пока префикс совпадает, за него берут сильно меньше (типичная скидка - заметная доля от обычной цены input). Платите полную цену только за новую переменную часть.
Когда выгодно
- Один большой контекст и много запросов к нему - идеальный случай.
- Длинная системная инструкция, которая не меняется от запроса к запросу.
- Документ, по которому пользователи задают разные вопросы.
Когда невыгодно: каждый запрос уникален с самого начала, общего префикса нет - кэшировать нечего.
Пример
Чат-бот по инструкции на 20 000 токенов, 1000 запросов в день.
- Без кэша: 1000 × 20 000 = 20M входных токенов в день только на инструкцию.
- С кэшем: полная цена за 20 000 токенов один раз (плюс периодические обновления кэша), остальные запросы платят за инструкцию со скидкой.
Экономия на повторяющемся контексте может выйти в разы. Точные цифры скидки и срок жизни кэша смотрите в документации провайдера - это ориентир, не точное правило.
Антипаттерны
- Класть изменяемое в начало запроса. Сломаете префикс - кэш не сработает.
- Менять инструкцию по мелочи каждый раз. Любое изменение начала обнуляет кэш.
- Рассчитывать на кэш там, где запросы всегда разные. Кэшу нужен общий повторяющийся кусок.
Что дальше
Кэш - один из способов платить меньше. Дальше соберём все приёмы экономии токенов вместе: короткий контекст, переиспользование, выбор модели.