раздел 02
Виды токенов
Что это
Токены делятся по тому, на какой стороне конвейера они находятся и из чего получены. Главное деление - входные и выходные. Отдельная тема - токены для разных языков и мультимодальные токены (когда в модель идёт не текст, а картинка или звук).
Входные и выходные токены
Входные токены (input) - всё, что вы отправляете модели за один запрос:
- системная инструкция (как модели себя вести),
- история диалога,
- ваш текущий вопрос,
- любой контекст: документы, данные, примеры.
Выходные токены (output) - то, что модель сгенерировала в ответ. Их она выдаёт по одному, последовательно, пока не закончит мысль или не упрётся в лимит.
Токены для разных языков
Один и тот же смысл на разных языках весит разное число токенов. Английский - самый «дешёвый» для большинства массовых моделей. Русский, арабский, японский, китайский обычно дороже: их символы и слова режутся на больше кусков.
Практический вывод: если приложение работает с не-английскими текстами, закладывайте больше токенов и в бюджет, и в расчёт контекстного окна. Тот же документ по-русски может не влезть в окно, в которое спокойно влез английский оригинал.
Мультимодальные токены
Современные модели принимают не только текст. Картинку, аудио, иногда видео модель тоже переводит во внутренние токены - и они тоже считаются и оплачиваются.
- Картинка превращается в набор токенов в зависимости от размера и детализации. Одно фото может стоить как абзац или даже страница текста.
- Аудио считается обычно по длительности, переведённой в токены.
- Видео - самое тяжёлое: это много кадров, каждый из которых дает свои токены.
Точные коэффициенты зависят от модели и режима. Детали и примеры - на следующей странице.
Пример
Вы отправляете модели запрос: системная инструкция + одно фото + короткий вопрос «что на картинке?». Раскладка по токенам (ориентир):
- инструкция - 200 токенов,
- фото - условно 1000+ токенов,
- вопрос - 10 токенов.
То есть основной вес здесь - картинка, а не текст. И всё это - входные токены, за которые вы платите по входной цене.
Антипаттерны
- Считать только текст и забывать про картинки. Изображения часто весят больше всего запроса.
- Думать, что вход и выход стоят одинаково. Выход обычно дороже.
- Гнать длинные ответы там, где хватит короткого. Выходные токены - самая дорогая часть.