раздел 01 · подстраница 1
Токенизация на примерах
Что это
Здесь смотрим на конкретные числа: сколько токенов «весит» один и тот же текст на разных языках и почему. Цель - научиться прикидывать число токенов на глаз, без счётчика.
Зачем
Прикидка в уме нужна постоянно: уместится ли документ в контекстное окно, сколько примерно будет стоить запрос, не оборвётся ли ответ. Если держать в голове пару коэффициентов, отвечать на эти вопросы можно за секунду.
Базовые коэффициенты
Грубые ориентиры (не точные, зависят от модели и текста):
| Язык / тип | Символов на токен | Слов на токен | | --- | --- | --- | | Английский | ≈ 4 символа | ≈ 0.75 слова | | Русский | ≈ 2-3 символа | меньше слова на токен | | Код | прыгает сильно | не применимо |
Главный вывод из таблицы: на английском один токен покрывает примерно 4 символа, а на русском - всего 2-3. Значит, один и тот же смысл по-русски стоит в полтора-два раза больше токенов.
Как считать в уме
Для английского удобное правило: число токенов ≈ число символов / 4. Или: число токенов ≈ число слов × 1.3.
Примеры для английского:
Hello, world!- 13 символов, примерно 3-4 токена.- Абзац на 100 слов - примерно 130 токенов.
- Страница текста (около 500 слов) - примерно 650-700 токенов.
Для русского те же тексты дадут заметно больше - закладывайте в полтора-два раза больше токенов на ту же длину.
Пример с разбором
Возьмём фразу и посмотрим примерную раскладку (ориентир):
- Английский:
The cat sat on the mat- 6 слов, примерно 6-7 токенов. Все слова частые, ложатся по одному токену. - Русский:
Кошка сидела на коврике- 4 слова, но примерно 8-10 токенов. Слова длиннее и режутся на куски:Кош,ка,сиде,лаи так далее.
Английская фраза длиннее по словам, но дешевле по токенам. Это и есть эффект, который удивляет новичков.
Где посмотреть точно
Точное число токенов всегда можно получить через токенизатор конкретной модели - у провайдеров есть для этого инструменты и счётчики (tokenizer / token counter). Если число токенов критично для бюджета или лимитов, не прикидывайте, а измеряйте.
Антипаттерны
- Считать русский так же, как английский. Заложите запас в полтора-два раза.
- Думать, что короткий по словам текст - дешёвый. Редкие слова, эмодзи, спецсимволы могут дать неожиданно много токенов.
- Доверять прикидке там, где нужна точность. Для биллинга и лимитов - меряйте токенизатором, а не на глаз.
Что дальше
Мы поняли, как текст превращается в токены. Дальше - какие вообще бывают токены: входные и выходные, и почему картинки и звук тоже считаются в токенах.