раздел 02
Как считать и прогнозировать
Что это
Плавающую часть расходов (оплату API по токенам) можно прикинуть заранее - до того, как придёт счёт. Достаточно знать цену модели и оценить объём задачи. Точность нужна не до копейки, а до порядка величины: «это будут центы», «это будут доллары» или «это будут сотни долларов».
Цена за 1M токенов
Тарифы на API указывают за миллион токенов, отдельно за вход и за выход. Выход почти всегда дороже входа - часто в несколько раз. Формула стоимости одного запроса:
цена запроса = (входных токенов / 1 000 000) × цена за 1M input
+ (выходных токенов / 1 000 000) × цена за 1M output
Подробно механику разбирает курс про токены - там же про то, почему русский текст «дороже» английского и как картинки превращаются в токены.
Кэширование контекста
Если вы раз за разом отправляете один и тот же большой кусок контекста (системная инструкция, документ, примеры), за него можно платить меньше через кэширование. Провайдер запоминает уже обработанный префикс и при повторе берёт за него скидку. Для приложений с одинаковым большим контекстом это режет счёт ощутимо. Числа скидки зависят от провайдера - смотрите актуальные.
Прикидка бюджета на месяц
Грубый порядок действий:
- Оцените объём одного запроса в токенах (вход + ожидаемый выход).
- Умножьте на цену модели - получите цену запроса.
- Умножьте на число запросов в месяц.
- Заложите запас 20-50% на недооценку (числа - ориентир).
Детальный разбор с числами - на подстранице «Оценка по объёму задачи».
Антипаттерны
- Считать только по цене входа. Выход дороже, и в развёрнутых ответах он - основная часть счёта.
- Не закладывать запас. Реальный объём почти всегда больше прикидки.
- Считать один запрос и забыть про масштаб. Копейка за запрос на миллионе запросов - это уже серьёзная сумма.