раздел 02
Критерии выбора
Что это
Любую модель можно оценить по нескольким независимым осям. «Лучшая» - это та, у которой нужные вам оси в порядке, а на остальные вы согласны закрыть глаза. Вот эти оси.
Качество
Насколько хорошо модель решает именно вашу задачу. Универсального «качества» нет: модель может блистать на коде и проседать на длинных рассуждениях. Бенчмарки дают общую картину, но решает проверка на ваших данных (об этом - отдельный раздел).
Скорость
Сколько ждать ответа и как быстро идут токены. Для чата важна задержка до первого токена, для массовой обработки - пропускная способность. Тяжёлые модели думают дольше; иногда быстрая «средняя» модель лучше медленного флагмана.
Цена за токены
Тариф за миллион входных и выходных токенов, обычно отдельно. Разброс между компактной и флагманской моделью - десятки, иногда сотни раз. На массовых задачах это главный фактор.
Размер контекста
Сколько токенов модель держит одновременно. Маленькое окно - длинный документ не влезет. Большое окно (сотни тысяч - миллион токенов) нужно для работы с большими файлами и долгими диалогами, но и стоит дороже.
Приватность
Куда уходят ваши данные. Публичный API - наружу. Опенсорс-модель на своём сервере - данные не покидают периметр. Для чувствительных данных это часто решающий критерий, который сразу отсекает флагманы.
Русский язык
Не все модели одинаково хороши в русском: одни пишут гладко, другие спотыкаются и тратят больше токенов на кириллицу. Если работаете с русским - проверяйте именно на нём, а не на английских примерах.
Мультимодальность
Умеет ли модель работать не только с текстом: картинки, аудио, видео, документы. Если задача про изображения или речь - нужна модель с соответствующей модальностью, текстовая не подойдёт.
Пример
Нужен ассистент, который читает PDF-договоры на русском и отвечает на вопросы. Критерии по важности: большое контекстное окно (договоры длинные), хороший русский, приемлемая цена. Скорость второстепенна, мультимодальность сверх текста не нужна. Под такой профиль и подбираем модель.
Антипаттерны
- Сравнивать только по цене входа. Выход обычно дороже, и именно он съедает бюджет.
- Брать модель «с самым большим окном» на всё. Большое окно стоит денег; если документы короткие - переплата.
- Верить рекламным бенчмаркам как истине. Они общие; ваша задача может вести себя иначе.