раздел 02

Критерии выбора

Что это

Любую модель можно оценить по нескольким независимым осям. «Лучшая» - это та, у которой нужные вам оси в порядке, а на остальные вы согласны закрыть глаза. Вот эти оси.

Качество

Насколько хорошо модель решает именно вашу задачу. Универсального «качества» нет: модель может блистать на коде и проседать на длинных рассуждениях. Бенчмарки дают общую картину, но решает проверка на ваших данных (об этом - отдельный раздел).

Скорость

Сколько ждать ответа и как быстро идут токены. Для чата важна задержка до первого токена, для массовой обработки - пропускная способность. Тяжёлые модели думают дольше; иногда быстрая «средняя» модель лучше медленного флагмана.

Цена за токены

Тариф за миллион входных и выходных токенов, обычно отдельно. Разброс между компактной и флагманской моделью - десятки, иногда сотни раз. На массовых задачах это главный фактор.

Размер контекста

Сколько токенов модель держит одновременно. Маленькое окно - длинный документ не влезет. Большое окно (сотни тысяч - миллион токенов) нужно для работы с большими файлами и долгими диалогами, но и стоит дороже.

Приватность

Куда уходят ваши данные. Публичный API - наружу. Опенсорс-модель на своём сервере - данные не покидают периметр. Для чувствительных данных это часто решающий критерий, который сразу отсекает флагманы.

Русский язык

Не все модели одинаково хороши в русском: одни пишут гладко, другие спотыкаются и тратят больше токенов на кириллицу. Если работаете с русским - проверяйте именно на нём, а не на английских примерах.

Мультимодальность

Умеет ли модель работать не только с текстом: картинки, аудио, видео, документы. Если задача про изображения или речь - нужна модель с соответствующей модальностью, текстовая не подойдёт.

Пример

Нужен ассистент, который читает PDF-договоры на русском и отвечает на вопросы. Критерии по важности: большое контекстное окно (договоры длинные), хороший русский, приемлемая цена. Скорость второстепенна, мультимодальность сверх текста не нужна. Под такой профиль и подбираем модель.

Антипаттерны

  • Сравнивать только по цене входа. Выход обычно дороже, и именно он съедает бюджет.
  • Брать модель «с самым большим окном» на всё. Большое окно стоит денег; если документы короткие - переплата.
  • Верить рекламным бенчмаркам как истине. Они общие; ваша задача может вести себя иначе.

Подразделы