раздел 04 · подстраница 2

Как экономить токены

Что это

Набор практических приёмов, которые режут число токенов - а значит и счёт, и время ответа. Ничего сложного: меньше лишнего в контексте, переиспользование повторяющегося и правильный выбор модели под задачу.

Зачем

Токены - прямые деньги. На объёме невнимательность к токенам превращается в кратную переплату. Те же приёмы заодно ускоряют ответы: меньше токенов - быстрее обработка.

Приёмы по убыванию эффекта

1. Выбирайте модель под задачу. Самый сильный рычаг. Разница в цене между компактной и флагманской моделью - десятки раз. Простую классификацию, извлечение полей, короткие ответы отдавайте дешёвой модели. Флагман берегите для сложного рассуждения. Можно комбинировать: дешёвая модель делает черновую работу, дорогая - финальную.

2. Не раздувайте контекст. Кладите в запрос только то, что реально нужно для ответа. Не весь документ, а нужный раздел. Не всю историю, а её сжатое резюме. Лишний контекст - это и деньги, и иногда худшее качество (модель путается в шуме).

3. Переиспользуйте через кэш. Повторяющийся большой контекст (инструкции, справочники) выносите в кэшируемый префикс. См. предыдущую страницу.

4. Ограничивайте длину ответа. Выход дороже входа. Просите коротко, ставьте лимит на максимальное число выходных токенов, просите только нужные поля. «Ответь одним словом» против «напиши эссе» - это разница в стоимости вывода.

5. Сжимайте историю диалога. В длинных чатах периодически заменяйте старую переписку кратким резюме - и дешевле, и окно не переполняется.

Пример

Сценарий: извлечь дату из письма, 5000 писем.

Плохо: флагманская модель, в контекст кладётся всё письмо целиком плюс длинная инструкция, ответ - развёрнутый абзац с пояснениями.
Хорошо: дешёвая модель, в контекст только релевантная часть письма, короткая инструкция в кэше, ответ - только дата в заданном формате.

Второй вариант может оказаться дешевле в десятки раз на той же задаче. Числа зависят от модели и данных - это иллюстрация подхода.

Антипаттерны

Брать флагман «чтобы наверняка» на простой задаче. Главная статья переплаты.
Совать в контекст всё подряд «на всякий случай». Платите за шум.
Не ограничивать длину ответа. Самая дорогая часть растёт без контроля.
Тащить бесконечную историю диалога. Растёт и цена, и риск переполнения окна.

Что дальше

Это была последняя содержательная тема. Дальше - шпаргалка: словарь терминов и короткий список правил, чтобы держать всё под рукой.