раздел 02

Как считать и прогнозировать

Что это

Плавающую часть расходов (оплату API по токенам) можно прикинуть заранее - до того, как придёт счёт. Достаточно знать цену модели и оценить объём задачи. Точность нужна не до копейки, а до порядка величины: «это будут центы», «это будут доллары» или «это будут сотни долларов».

Цена за 1M токенов

Тарифы на API указывают за миллион токенов, отдельно за вход и за выход. Выход почти всегда дороже входа - часто в несколько раз. Формула стоимости одного запроса:

цена запроса = (входных токенов / 1 000 000) × цена за 1M input
             + (выходных токенов / 1 000 000) × цена за 1M output

Подробно механику разбирает курс про токены - там же про то, почему русский текст «дороже» английского и как картинки превращаются в токены.

Цены - ориентир по порядку величины, проверяйте актуальные. Они быстро меняются и зависят от модели и провайдера.

Дешёвые / компактные модели: единицы - десятки центов за 1M входных токенов.
Флагманские модели: единицы - десятки долларов за 1M входных токенов.
Выход почти всегда в несколько раз дороже входа.

Разброс между «маленькой» и «флагманской» моделью - десятки, иногда сотни раз. Поэтому выбор модели влияет на бюджет сильнее всего - см. выбор модели под задачу.

Кэширование контекста

Если вы раз за разом отправляете один и тот же большой кусок контекста (системная инструкция, документ, примеры), за него можно платить меньше через кэширование. Провайдер запоминает уже обработанный префикс и при повторе берёт за него скидку. Для приложений с одинаковым большим контекстом это режет счёт ощутимо. Числа скидки зависят от провайдера - смотрите актуальные.

Прикидка бюджета на месяц

Грубый порядок действий:

Оцените объём одного запроса в токенах (вход + ожидаемый выход).
Умножьте на цену модели - получите цену запроса.
Умножьте на число запросов в месяц.
Заложите запас 20-50% на недооценку (числа - ориентир).

Детальный разбор с числами - на подстранице «Оценка по объёму задачи».

Антипаттерны

Считать только по цене входа. Выход дороже, и в развёрнутых ответах он - основная часть счёта.
Не закладывать запас. Реальный объём почти всегда больше прикидки.
Считать один запрос и забыть про масштаб. Копейка за запрос на миллионе запросов - это уже серьёзная сумма.

Подразделы

Оценка по объёму задачи

От числа запросов и среднего размера ответа - к прогнозу на месяц. Формула и пример с числами-ориентирами.