раздел 02 · подстраница 1

Оценка по объёму задачи

Что это за тема

Прикидка месячного бюджета на API из трёх чисел: сколько токенов в одном запросе, сколько стоит модель, сколько запросов в месяц. На выходе - оценка по порядку величины, которой хватает для решения «потяну или нет».

Зачем это понимать

Чтобы выбрать модель и план до запуска, а не после первого счёта. Та же задача на флагманской и на компактной модели может отличаться по цене в десятки раз - и это видно ещё на этапе прикидки.

Как считать

Шаги:

  1. Размер одного запроса. Сложите входные токены (промпт + контекст + данные) и ожидаемые выходные (длина ответа). Ориентир для прикидки: английский - примерно 4 символа на токен, русский дороже. Точно - меряйте токенизатором модели.
  2. Цена запроса. Подставьте в формулу из раздела 02: вход по цене input, выход по цене output.
  3. Масштаб. Умножьте на число запросов в месяц.
  4. Запас. Прибавьте 20-50% (ориентир) на недооценку объёма и повторы.

Пример

Задача: классифицировать 100 000 коротких сообщений в месяц. Числа - условный ориентир, не реальные тарифы.

  • вход на запрос: ≈ 300 токенов (инструкция + сообщение),
  • выход на запрос: ≈ 20 токенов (короткий ярлык),
  • итого на запрос: ≈ 320 токенов.

За месяц: 100 000 × 320 ≈ 32 млн токенов, в основном входных.

  • на дешёвой модели это будут центы - единицы долларов,
  • на флагманской - десятки, возможно сотни долларов.

Вывод виден сразу: для простой классификации флагман брать незачем. Это и есть главный рычаг - см. выбор модели под задачу.

Антипаттерны

  • Считать в словах, а не в токенах. Русский текст в токенах дороже, чем кажется по словам.
  • Забыть про системную инструкцию. Она уходит в каждый запрос и на масштабе весит много.
  • Прикидывать без запаса. Реальный объём почти всегда выше первой оценки.

Что дальше

Дальше - где смотреть фактический баланс и как поставить лимиты, чтобы прикидка не разошлась с реальностью в худшую сторону.