раздел 00
Что такое заполнение контекста
Контекстное окно - это сколько токенов модель видит за один раз. У Claude, например, это 200K токенов. Всё, что попадает в этот объём, модель держит в голове одновременно: системные инструкции, твои сообщения, ответы, прочитанные файлы. Всё, что не влезло, для модели не существует.
Удобно думать про окно как про рабочую память на одну сессию. Это не долговременная память - между чатами она не сохраняется. В рамках одного диалога окно постепенно наполняется, и в какой-то момент упирается в потолок.
Процент заполнения - это сколько из доступного объёма уже занято. 27% от 200K - это примерно 53.4K токенов, которые модель обрабатывает на каждом шаге.
Почему это важно
Пока окно занято наполовину - всё хорошо. Проблемы начинаются ближе к потолку.
- Старое начинает теряться. Когда новое не помещается, инструменты обрезают самое раннее - и модель забывает, с чего начинался разговор.
- Падает качество и точность. Есть известный эффект «потерялось в середине» (lost in the middle): даже то, что формально влезло, в середине длинного окна модель замечает хуже, чем в начале и в конце.
- Растёт цена. Каждый запрос оплачивается по числу токенов в окне. Чем оно полнее, тем дороже обходится каждое сообщение. Подробнее про токены и их стоимость - в гайде про токены.
Дальше разберём, из чего складывается заполнение, как за ним следить и как держать окно в узде.