раздел 04

Стоимость

Что это

Цена работы с LLM считается в токенах. Обычно тариф указывают за миллион токенов и отдельно для входа и выхода. Вы платите за каждый токен, который отправили модели, и за каждый токен, который она сгенерировала в ответ.

Как считается цена

Формула простая:

цена запроса = (входных токенов / 1 000 000) × цена за 1M input
             + (выходных токенов / 1 000 000) × цена за 1M output

Два ключевых факта:

цены указывают за миллион токенов - так удобнее, потому что токенов уходит много;
вход и выход тарифицируются отдельно, и выход почти всегда дороже.

Почему вывод дороже входа

Входные токены модель только «читает» - обрабатывает за один проход. Выходные она генерирует по одному, и каждый следующий токен зависит от всех предыдущих. Это вычислительно тяжелее, поэтому output стоит дороже - часто в несколько раз. Практический вывод: длинные развёрнутые ответы - самая дорогая часть счёта.

Цены ниже - ориентир по порядку величины, проверяйте актуальные. Они быстро меняются и зависят от модели и провайдера.

Дешёвые / компактные модели: единицы - десятки центов за 1M входных токенов.
Флагманские модели: единицы - десятки долларов за 1M входных токенов.
Выход почти всегда в несколько раз дороже входа.

Разброс между «маленькой» и «флагманской» моделью - десятки, иногда сотни раз. Поэтому выбор модели под задачу влияет на счёт сильнее всего остального.

Кэширование контекста

Если вы раз за разом отправляете один и тот же большой кусок контекста (системная инструкция, документ, примеры), за него можно платить меньше - через кэширование. Провайдер запоминает уже обработанный контекст и при повторном использовании берёт за него скидку. Подробно - на отдельной странице.

Пример

Запрос: 10 000 входных токенов и 2 000 выходных. Цены (условный ориентир): вход 3 доллара за 1M, выход 15 долларов за 1M.

вход: 10 000 / 1 000 000 × 3 = 0.03 доллара
выход: 2 000 / 1 000 000 × 15 = 0.03 доллара
итого: ≈ 0.06 доллара за запрос

Обратите внимание: выходных токенов в пять раз меньше, чем входных, а стоят они столько же. Это и есть «выход дороже».

Антипаттерны

Сравнивать модели только по цене входа. Смотрите и на выход - там основная разница.
Гонять флагманскую модель на простых задачах. Часто дешёвая модель справится за десятую часть цены.
Каждый раз заново слать один и тот же большой контекст без кэша. Платите за одно и то же по полной.

Подразделы

Кэширование контекста

Если повторяете один и тот же большой контекст - за него можно платить меньше. Как работает кэш и когда он выгоден.

Как экономить токены

Короткий контекст, переиспользование, правильный выбор модели. Простые приёмы, которые режут счёт в разы.