раздел 05 · подстраница 1
Словарь терминов
Короткие определения всех понятий курса. Держите под рукой.
Базовые понятия
Токен - минимальная единица, которой оперирует языковая модель. Кусок текста: часто слово целиком, иногда часть слова, иногда знак или пробел. Модель видит текст как последовательность токенов, а не символов или слов.
Токенизация - процесс разбиения текста на токены перед обработкой моделью. Выполняется токенизатором.
Токенизатор - компонент, который превращает текст в токены и обратно. У каждой модели свой, поэтому одно и то же предложение у разных моделей может дать разное число токенов.
Словарь токенизатора - набор всех токенов, которые модель «знает». Обычно десятки-сотни тысяч.
Вход и выход
Входные токены (input) - всё, что отправлено модели за один запрос: системная инструкция, история диалога, документы, ваш вопрос.
Выходные токены (output) - то, что модель сгенерировала в ответ. Выдаются по одному. Обычно дороже входных.
Системная инструкция (system prompt) - заданные правила поведения модели. Часть входных токенов, идёт в каждый запрос.
Память и контекст
Контекст - вся информация, которую вы передаёте модели в запросе: инструкция, история, документы, вопрос. Плюс генерируемый ответ.
Контекстное окно (context window) - максимальное число токенов, которое модель держит перед глазами за один раз. Включает и вход, и выход. Ориентир для современных моделей - от 128K до 1M токенов и больше.
Переполнение окна - ситуация, когда токенов набралось больше, чем влезает. Старое вытесняется, обрезается или возвращается ошибка. Причина, по которой модель «забывает» начало длинного диалога.
Лимит вывода (max output tokens) - максимальное число токенов в ответе. Если упёрлись - ответ оборвётся.
Мультимодальность
Мультимодальные токены - токены, в которые модель переводит не текст, а картинку, аудио или видео. Тоже считаются и оплачиваются.
Деньги
Цена за 1M токенов - стандартный способ указывать тариф. Отдельно для входа и выхода. Выход почти всегда дороже.
Кэширование контекста (prompt caching) - скидка на повторно используемый общий префикс запроса (инструкция, документ). Платите полную цену один раз, дальше за тот же кусок - меньше.
Эффект потерянной середины - модели обычно хуже используют информацию из середины длинного контекста, чем из начала и конца. Важное стоит класть по краям запроса.
Практические правила
- Платите за весь контекст каждый запрос, а не за последнее сообщение.
- Выход дороже входа - держите ответы короткими.
- Выбор модели под задачу экономит сильнее всего.
- Русский дороже английского по токенам.
- Картинки и звук - это тоже токены.
- Для точности меряйте токенизатором, не прикидывайте.