раздел 02 · подстраница 1

Мультимодальные токены

Что это

Мультимодальные токены - это токены, в которые модель переводит не текст, а картинку, звук или видео. Модель внутри всё равно работает токенами, поэтому любой вход сначала превращается в них. И раз это токены - они считаются и оплачиваются наравне с текстом.

Зачем это понимать

Без этого легко получить неприятный счёт. Человек думает: «я же просто загрузил одно фото и задал короткий вопрос». А по токенам это фото - как страница текста, а то и больше. Особенно больно с видео: оно разбивается на кадры, и каждый кадр - это свои токены.

Как считаются картинки

Изображение разбивается на токены в зависимости от:

размера - чем больше пикселей, тем больше токенов,
уровня детализации - режим высокой детализации стоит заметно больше, чем low/обзорный,
модели - у каждой свои коэффициенты.

Ориентир: одна картинка - это часто от нескольких сотен до пары тысяч токенов. Большое изображение в высокой детализации может легко перевесить весь текстовый промпт. Точные числа смотрите в документации конкретной модели.

Как считается аудио и видео

Аудио обычно считается по длительности: столько-то токенов на секунду или минуту записи. Длинная запись - много токенов, даже если в ней мало слов.

Видео - самое дорогое. Это по сути множество кадров плюс, возможно, аудиодорожка. Каждый кадр считается как изображение. Минута видео может стоить как очень большой текстовый документ.

Пример

Сравним три входа примерно одинаковой «полезной нагрузки» (ориентир):

| Вход | Примерный вес в токенах | | --- | --- | | Абзац текста (100 слов, англ.) | ≈ 130 | | Одно фото, обзорная детализация | несколько сотен | | Одно фото, высокая детализация | до пары тысяч | | Минута видео | тысячи и десятки тысяч |

Числа условные - они для интуиции, а не для расчёта. Но порядок такой: текст дешевле всего, картинка дороже, видео дороже всего.

Антипаттерны

Грузить фото в максимальном разрешении «на всякий случай». Платите за пиксели, которые модель не использует.
Включать высокую детализацию по умолчанию. Дорого и часто не нужно.
Кидать длинное видео целиком. Часто дешевле вырезать нужный фрагмент или прислать несколько ключевых кадров.

Что дальше

Мы разобрали, что токенов бывает много видов и все они занимают место. Теперь главный вопрос про «место»: сколько токенов модель вообще способна держать в голове одновременно. Это контекстное окно.