раздел 04

Как экономить

Что это

Набор рычагов, которые снижают расход на AI. Эффект у них разный: один режет счёт в разы, другой даёт проценты. Начинать стоит с самых сильных.

Рычаги по убыванию эффекта

1. Выбор модели под задачу. Самый сильный рычаг. Разница в цене между компактной и флагманской моделью - десятки, иногда сотни раз. Берите флагман только туда, где он реально нужен (сложные рассуждения, код), а рутину отдавайте дешёвой модели. Подробно - в курсе выбор модели под задачу.

2. Короткий контекст. Вы платите за весь контекст каждый запрос, а не за последнее сообщение. Не тащите в запрос лишнее: сжимайте историю диалога в резюме, давайте только нужные документы. Бонус - часто и качество выше. Механика - в курсе про токены.

3. Кэширование. Если большой кусок контекста повторяется из запроса в запрос (инструкция, документ) - кэшируйте его. Платите полную цену один раз, дальше за тот же кусок меньше.

4. Батчинг. Многие провайдеры дают скидку за пакетную обработку (batch API): отправляете задачи пачкой, готовы они не мгновенно, а в течение окна - и за это дешевле. Подходит, когда ответ не нужен в реальном времени.

5. Опенсорс-модели. Для большого стабильного объёма свои опенсорс-модели на своём железе могут оказаться дешевле API - предсказуемая цена без счётчика. Окупаемость считается против объёма. Подробно - в курсе свои опенсорс-модели.

6. Агрегаторы. OpenRouter и подобные дают один счёт на все модели, маршрутизацию на более дешёвый вариант и фолбэки. Помогают и контролировать расход, и иногда удешевлять его.

Пример

Скрипт суммаризирует документы на флагманской модели с полным контекстом каждый раз. Оптимизация по шагам (эффект - ориентир):

перенесли простую суммаризацию на компактную модель - счёт упал в разы,
убрали лишнее из промпта, оставили только документ - минус ещё часть,
закэшировали общую инструкцию - минус повторяемая часть,
перевели на batch, раз ответ не нужен мгновенно - минус ещё.

Главный вклад дал первый шаг.

Антипаттерны