раздел 01 · подстраница 1

Токенизация на примерах

Что это

Здесь смотрим на конкретные числа: сколько токенов «весит» один и тот же текст на разных языках и почему. Цель - научиться прикидывать число токенов на глаз, без счётчика.

Зачем

Прикидка в уме нужна постоянно: уместится ли документ в контекстное окно, сколько примерно будет стоить запрос, не оборвётся ли ответ. Если держать в голове пару коэффициентов, отвечать на эти вопросы можно за секунду.

Базовые коэффициенты

Грубые ориентиры (не точные, зависят от модели и текста):

| Язык / тип | Символов на токен | Слов на токен | | --- | --- | --- | | Английский | ≈ 4 символа | ≈ 0.75 слова | | Русский | ≈ 2-3 символа | меньше слова на токен | | Код | прыгает сильно | не применимо |

Главный вывод из таблицы: на английском один токен покрывает примерно 4 символа, а на русском - всего 2-3. Значит, один и тот же смысл по-русски стоит в полтора-два раза больше токенов.

Как считать в уме

Для английского удобное правило: число токенов ≈ число символов / 4. Или: число токенов ≈ число слов × 1.3.

Примеры для английского:

  • Hello, world! - 13 символов, примерно 3-4 токена.
  • Абзац на 100 слов - примерно 130 токенов.
  • Страница текста (около 500 слов) - примерно 650-700 токенов.

Для русского те же тексты дадут заметно больше - закладывайте в полтора-два раза больше токенов на ту же длину.

Пример с разбором

Возьмём фразу и посмотрим примерную раскладку (ориентир):

  • Английский: The cat sat on the mat - 6 слов, примерно 6-7 токенов. Все слова частые, ложатся по одному токену.
  • Русский: Кошка сидела на коврике - 4 слова, но примерно 8-10 токенов. Слова длиннее и режутся на куски: Кош, ка, сиде, ла и так далее.

Английская фраза длиннее по словам, но дешевле по токенам. Это и есть эффект, который удивляет новичков.

Где посмотреть точно

Точное число токенов всегда можно получить через токенизатор конкретной модели - у провайдеров есть для этого инструменты и счётчики (tokenizer / token counter). Если число токенов критично для бюджета или лимитов, не прикидывайте, а измеряйте.

Антипаттерны

  • Считать русский так же, как английский. Заложите запас в полтора-два раза.
  • Думать, что короткий по словам текст - дешёвый. Редкие слова, эмодзи, спецсимволы могут дать неожиданно много токенов.
  • Доверять прикидке там, где нужна точность. Для биллинга и лимитов - меряйте токенизатором, а не на глаз.

Что дальше

Мы поняли, как текст превращается в токены. Дальше - какие вообще бывают токены: входные и выходные, и почему картинки и звук тоже считаются в токенах.