раздел 05 · подстраница 1

Словарь терминов

Короткие определения всех понятий курса. Держите под рукой.

Базовые понятия

Токен - минимальная единица, которой оперирует языковая модель. Кусок текста: часто слово целиком, иногда часть слова, иногда знак или пробел. Модель видит текст как последовательность токенов, а не символов или слов.

Токенизация - процесс разбиения текста на токены перед обработкой моделью. Выполняется токенизатором.

Токенизатор - компонент, который превращает текст в токены и обратно. У каждой модели свой, поэтому одно и то же предложение у разных моделей может дать разное число токенов.

Словарь токенизатора - набор всех токенов, которые модель «знает». Обычно десятки-сотни тысяч.

Вход и выход

Входные токены (input) - всё, что отправлено модели за один запрос: системная инструкция, история диалога, документы, ваш вопрос.

Выходные токены (output) - то, что модель сгенерировала в ответ. Выдаются по одному. Обычно дороже входных.

Системная инструкция (system prompt) - заданные правила поведения модели. Часть входных токенов, идёт в каждый запрос.

Память и контекст

Контекст - вся информация, которую вы передаёте модели в запросе: инструкция, история, документы, вопрос. Плюс генерируемый ответ.

Контекстное окно (context window) - максимальное число токенов, которое модель держит перед глазами за один раз. Включает и вход, и выход. Ориентир для современных моделей - от 128K до 1M токенов и больше.

Переполнение окна - ситуация, когда токенов набралось больше, чем влезает. Старое вытесняется, обрезается или возвращается ошибка. Причина, по которой модель «забывает» начало длинного диалога.

Лимит вывода (max output tokens) - максимальное число токенов в ответе. Если упёрлись - ответ оборвётся.

Мультимодальность

Мультимодальные токены - токены, в которые модель переводит не текст, а картинку, аудио или видео. Тоже считаются и оплачиваются.

Деньги

Цена за 1M токенов - стандартный способ указывать тариф. Отдельно для входа и выхода. Выход почти всегда дороже.

Кэширование контекста (prompt caching) - скидка на повторно используемый общий префикс запроса (инструкция, документ). Платите полную цену один раз, дальше за тот же кусок - меньше.

Эффект потерянной середины - модели обычно хуже используют информацию из середины длинного контекста, чем из начала и конца. Важное стоит класть по краям запроса.

Практические правила

Платите за весь контекст каждый запрос, а не за последнее сообщение.
Выход дороже входа - держите ответы короткими.
Выбор модели под задачу экономит сильнее всего.
Русский дороже английского по токенам.
Картинки и звук - это тоже токены.
Для точности меряйте токенизатором, не прикидывайте.