раздел 04
Стоимость
Что это
Цена работы с LLM считается в токенах. Обычно тариф указывают за миллион токенов и отдельно для входа и выхода. Вы платите за каждый токен, который отправили модели, и за каждый токен, который она сгенерировала в ответ.
Как считается цена
Формула простая:
цена запроса = (входных токенов / 1 000 000) × цена за 1M input
+ (выходных токенов / 1 000 000) × цена за 1M output
Два ключевых факта:
- цены указывают за миллион токенов - так удобнее, потому что токенов уходит много;
- вход и выход тарифицируются отдельно, и выход почти всегда дороже.
Почему вывод дороже входа
Входные токены модель только «читает» - обрабатывает за один проход. Выходные она генерирует по одному, и каждый следующий токен зависит от всех предыдущих. Это вычислительно тяжелее, поэтому output стоит дороже - часто в несколько раз. Практический вывод: длинные развёрнутые ответы - самая дорогая часть счёта.
Кэширование контекста
Если вы раз за разом отправляете один и тот же большой кусок контекста (системная инструкция, документ, примеры), за него можно платить меньше - через кэширование. Провайдер запоминает уже обработанный контекст и при повторном использовании берёт за него скидку. Подробно - на отдельной странице.
Пример
Запрос: 10 000 входных токенов и 2 000 выходных. Цены (условный ориентир): вход 3 доллара за 1M, выход 15 долларов за 1M.
- вход: 10 000 / 1 000 000 × 3 = 0.03 доллара
- выход: 2 000 / 1 000 000 × 15 = 0.03 доллара
- итого: ≈ 0.06 доллара за запрос
Обратите внимание: выходных токенов в пять раз меньше, чем входных, а стоят они столько же. Это и есть «выход дороже».
Антипаттерны
- Сравнивать модели только по цене входа. Смотрите и на выход - там основная разница.
- Гонять флагманскую модель на простых задачах. Часто дешёвая модель справится за десятую часть цены.
- Каждый раз заново слать один и тот же большой контекст без кэша. Платите за одно и то же по полной.