раздел 00
Зачем сравнивать модели
Моделей стало слишком много, чтобы держать в голове. OpenAI, Anthropic, Google, Meta, китайские лаборатории, десятки опенсорс-моделей - и почти каждую неделю кто-то выпускает что-то новое и заявляет, что обогнал всех. Верить рекламе от самих разработчиков не стоит: каждый показывает цифры, на которых выглядит лучше.
Поэтому появились независимые способы сравнить модели между собой. Они отвечают на простой вопрос: кто сейчас реально сильнее и под какую задачу.
Лидерборд - это карта местности, а не приказ. Он показывает, кто в среднем впереди, но не говорит, какая модель лучше справится именно с вашей работой.
Два способа сравнения
Живое голосование людей
Люди вслепую сравнивают ответы двух моделей и выбирают лучший. Так устроена LMArena.
Бенчмарки и метрики
Стандартные тесты и замеры: знания, код, цена, скорость. Так устроены HuggingFace и Artificial Analysis.
Что разберём
- 01 - LMArena: как работает слепое голосование и рейтинг Elo.
- 02 - другие лидерборды и что такое бенчмарки.
- 03 - как пользоваться рейтингами с умом, не доверяя им вслепую.
- 04 - шпаргалка с глоссарием и ссылками.