раздел 00

Что такое заполнение контекста

Контекстное окно - это сколько токенов модель видит за один раз. У Claude, например, это 200K токенов. Всё, что попадает в этот объём, модель держит в голове одновременно: системные инструкции, твои сообщения, ответы, прочитанные файлы. Всё, что не влезло, для модели не существует.

Удобно думать про окно как про рабочую память на одну сессию. Это не долговременная память - между чатами она не сохраняется. В рамках одного диалога окно постепенно наполняется, и в какой-то момент упирается в потолок.

Процент заполнения - это сколько из доступного объёма уже занято. 27% от 200K - это примерно 53.4K токенов, которые модель обрабатывает на каждом шаге.

Почему это важно

Пока окно занято наполовину - всё хорошо. Проблемы начинаются ближе к потолку.

  • Старое начинает теряться. Когда новое не помещается, инструменты обрезают самое раннее - и модель забывает, с чего начинался разговор.
  • Падает качество и точность. Есть известный эффект «потерялось в середине» (lost in the middle): даже то, что формально влезло, в середине длинного окна модель замечает хуже, чем в начале и в конце.
  • Растёт цена. Каждый запрос оплачивается по числу токенов в окне. Чем оно полнее, тем дороже обходится каждое сообщение. Подробнее про токены и их стоимость - в гайде про токены.

Дальше разберём, из чего складывается заполнение, как за ним следить и как держать окно в узде.