раздел 04

Стоимость

Что это

Цена работы с LLM считается в токенах. Обычно тариф указывают за миллион токенов и отдельно для входа и выхода. Вы платите за каждый токен, который отправили модели, и за каждый токен, который она сгенерировала в ответ.

Как считается цена

Формула простая:

цена запроса = (входных токенов / 1 000 000) × цена за 1M input
             + (выходных токенов / 1 000 000) × цена за 1M output

Два ключевых факта:

  • цены указывают за миллион токенов - так удобнее, потому что токенов уходит много;
  • вход и выход тарифицируются отдельно, и выход почти всегда дороже.

Почему вывод дороже входа

Входные токены модель только «читает» - обрабатывает за один проход. Выходные она генерирует по одному, и каждый следующий токен зависит от всех предыдущих. Это вычислительно тяжелее, поэтому output стоит дороже - часто в несколько раз. Практический вывод: длинные развёрнутые ответы - самая дорогая часть счёта.

Кэширование контекста

Если вы раз за разом отправляете один и тот же большой кусок контекста (системная инструкция, документ, примеры), за него можно платить меньше - через кэширование. Провайдер запоминает уже обработанный контекст и при повторном использовании берёт за него скидку. Подробно - на отдельной странице.

Пример

Запрос: 10 000 входных токенов и 2 000 выходных. Цены (условный ориентир): вход 3 доллара за 1M, выход 15 долларов за 1M.

  • вход: 10 000 / 1 000 000 × 3 = 0.03 доллара
  • выход: 2 000 / 1 000 000 × 15 = 0.03 доллара
  • итого: ≈ 0.06 доллара за запрос

Обратите внимание: выходных токенов в пять раз меньше, чем входных, а стоят они столько же. Это и есть «выход дороже».

Антипаттерны

  • Сравнивать модели только по цене входа. Смотрите и на выход - там основная разница.
  • Гонять флагманскую модель на простых задачах. Часто дешёвая модель справится за десятую часть цены.
  • Каждый раз заново слать один и тот же большой контекст без кэша. Платите за одно и то же по полной.

Подразделы