раздел 04
Как экономить
Что это
Набор рычагов, которые снижают расход на AI. Эффект у них разный: один режет счёт в разы, другой даёт проценты. Начинать стоит с самых сильных.
Рычаги по убыванию эффекта
1. Выбор модели под задачу. Самый сильный рычаг. Разница в цене между компактной и флагманской моделью - десятки, иногда сотни раз. Берите флагман только туда, где он реально нужен (сложные рассуждения, код), а рутину отдавайте дешёвой модели. Подробно - в курсе выбор модели под задачу.
2. Короткий контекст. Вы платите за весь контекст каждый запрос, а не за последнее сообщение. Не тащите в запрос лишнее: сжимайте историю диалога в резюме, давайте только нужные документы. Бонус - часто и качество выше. Механика - в курсе про токены.
3. Кэширование. Если большой кусок контекста повторяется из запроса в запрос (инструкция, документ) - кэшируйте его. Платите полную цену один раз, дальше за тот же кусок меньше.
4. Батчинг. Многие провайдеры дают скидку за пакетную обработку (batch API): отправляете задачи пачкой, готовы они не мгновенно, а в течение окна - и за это дешевле. Подходит, когда ответ не нужен в реальном времени.
5. Опенсорс-модели. Для большого стабильного объёма свои опенсорс-модели на своём железе могут оказаться дешевле API - предсказуемая цена без счётчика. Окупаемость считается против объёма. Подробно - в курсе свои опенсорс-модели.
6. Агрегаторы. OpenRouter и подобные дают один счёт на все модели, маршрутизацию на более дешёвый вариант и фолбэки. Помогают и контролировать расход, и иногда удешевлять его.
Пример
Скрипт суммаризирует документы на флагманской модели с полным контекстом каждый раз. Оптимизация по шагам (эффект - ориентир):
- перенесли простую суммаризацию на компактную модель - счёт упал в разы,
- убрали лишнее из промпта, оставили только документ - минус ещё часть,
- закэшировали общую инструкцию - минус повторяемая часть,
- перевели на batch, раз ответ не нужен мгновенно - минус ещё.
Главный вклад дал первый шаг.
Антипаттерны
- Экономить на мелочах, игнорируя выбор модели. Это оптимизация процентов вместо разов.
- Резать контекст до потери качества. Слишком короткий контекст ломает ответы - режьте лишнее, а не нужное.
- Тащить опенсорс ради экономии на малом объёме. На небольших объёмах API почти всегда дешевле и проще.