раздел 01
Как устроен чат внутри
Когда вы отправляете сообщение, модель видит не только его. На каждом шаге ей передаётся всё контекстное окно целиком - и из этого она строит ответ.
Из чего складывается контекст
Окно растёт, цена растёт
Каждое новое сообщение - и ваше, и ответ модели - добавляется в историю. Значит, с каждым шагом контекст становится длиннее. А модель на каждый запрос перечитывает весь контекст заново.
Отсюда простое следствие: чем длиннее чат, тем больше токенов уходит на каждый запрос и тем дороже он обходится. В длинном чате даже короткий вопрос тянет за собой всю предыдущую историю. Если у вас есть лимиты или платный тариф, длинные чаты съедают их быстрее.
Почему новый чат - это чистый лист
Новый чат стартует с пустой историей: только системный промпт и ваш первый ввод. Старая история туда не попадает.
Это и плюс, и минус - смотря что вам нужно.
Когда контекст замусорился или вы сменили тему - новый чат полезен. Когда хотите продолжить начатое - его нужно как-то перенести. Об этом следующая глава.