раздел 02

Виды токенов

Что это

Токены делятся по тому, на какой стороне конвейера они находятся и из чего получены. Главное деление - входные и выходные. Отдельная тема - токены для разных языков и мультимодальные токены (когда в модель идёт не текст, а картинка или звук).

Входные и выходные токены

Входные токены (input) - всё, что вы отправляете модели за один запрос:

  • системная инструкция (как модели себя вести),
  • история диалога,
  • ваш текущий вопрос,
  • любой контекст: документы, данные, примеры.

Выходные токены (output) - то, что модель сгенерировала в ответ. Их она выдаёт по одному, последовательно, пока не закончит мысль или не упрётся в лимит.

Токены для разных языков

Один и тот же смысл на разных языках весит разное число токенов. Английский - самый «дешёвый» для большинства массовых моделей. Русский, арабский, японский, китайский обычно дороже: их символы и слова режутся на больше кусков.

Практический вывод: если приложение работает с не-английскими текстами, закладывайте больше токенов и в бюджет, и в расчёт контекстного окна. Тот же документ по-русски может не влезть в окно, в которое спокойно влез английский оригинал.

Мультимодальные токены

Современные модели принимают не только текст. Картинку, аудио, иногда видео модель тоже переводит во внутренние токены - и они тоже считаются и оплачиваются.

  • Картинка превращается в набор токенов в зависимости от размера и детализации. Одно фото может стоить как абзац или даже страница текста.
  • Аудио считается обычно по длительности, переведённой в токены.
  • Видео - самое тяжёлое: это много кадров, каждый из которых дает свои токены.

Точные коэффициенты зависят от модели и режима. Детали и примеры - на следующей странице.

Пример

Вы отправляете модели запрос: системная инструкция + одно фото + короткий вопрос «что на картинке?». Раскладка по токенам (ориентир):

  • инструкция - 200 токенов,
  • фото - условно 1000+ токенов,
  • вопрос - 10 токенов.

То есть основной вес здесь - картинка, а не текст. И всё это - входные токены, за которые вы платите по входной цене.

Антипаттерны

  • Считать только текст и забывать про картинки. Изображения часто весят больше всего запроса.
  • Думать, что вход и выход стоят одинаково. Выход обычно дороже.
  • Гнать длинные ответы там, где хватит короткого. Выходные токены - самая дорогая часть.

Подразделы