раздел 02

Как считать и прогнозировать

Что это

Плавающую часть расходов (оплату API по токенам) можно прикинуть заранее - до того, как придёт счёт. Достаточно знать цену модели и оценить объём задачи. Точность нужна не до копейки, а до порядка величины: «это будут центы», «это будут доллары» или «это будут сотни долларов».

Цена за 1M токенов

Тарифы на API указывают за миллион токенов, отдельно за вход и за выход. Выход почти всегда дороже входа - часто в несколько раз. Формула стоимости одного запроса:

цена запроса = (входных токенов / 1 000 000) × цена за 1M input
             + (выходных токенов / 1 000 000) × цена за 1M output

Подробно механику разбирает курс про токены - там же про то, почему русский текст «дороже» английского и как картинки превращаются в токены.

Кэширование контекста

Если вы раз за разом отправляете один и тот же большой кусок контекста (системная инструкция, документ, примеры), за него можно платить меньше через кэширование. Провайдер запоминает уже обработанный префикс и при повторе берёт за него скидку. Для приложений с одинаковым большим контекстом это режет счёт ощутимо. Числа скидки зависят от провайдера - смотрите актуальные.

Прикидка бюджета на месяц

Грубый порядок действий:

  1. Оцените объём одного запроса в токенах (вход + ожидаемый выход).
  2. Умножьте на цену модели - получите цену запроса.
  3. Умножьте на число запросов в месяц.
  4. Заложите запас 20-50% на недооценку (числа - ориентир).

Детальный разбор с числами - на подстранице «Оценка по объёму задачи».

Антипаттерны

  • Считать только по цене входа. Выход дороже, и в развёрнутых ответах он - основная часть счёта.
  • Не закладывать запас. Реальный объём почти всегда больше прикидки.
  • Считать один запрос и забыть про масштаб. Копейка за запрос на миллионе запросов - это уже серьёзная сумма.

Подразделы