раздел 00

Зачем сравнивать модели

Моделей стало слишком много, чтобы держать в голове. OpenAI, Anthropic, Google, Meta, китайские лаборатории, десятки опенсорс-моделей - и почти каждую неделю кто-то выпускает что-то новое и заявляет, что обогнал всех. Верить рекламе от самих разработчиков не стоит: каждый показывает цифры, на которых выглядит лучше.

Поэтому появились независимые способы сравнить модели между собой. Они отвечают на простой вопрос: кто сейчас реально сильнее и под какую задачу.

Лидерборд - это карта местности, а не приказ. Он показывает, кто в среднем впереди, но не говорит, какая модель лучше справится именно с вашей работой.

Два способа сравнения

Живое голосование людей
Люди вслепую сравнивают ответы двух моделей и выбирают лучший. Так устроена LMArena.
Бенчмарки и метрики
Стандартные тесты и замеры: знания, код, цена, скорость. Так устроены HuggingFace и Artificial Analysis.

Что разберём

  • 01 - LMArena: как работает слепое голосование и рейтинг Elo.
  • 02 - другие лидерборды и что такое бенчмарки.
  • 03 - как пользоваться рейтингами с умом, не доверяя им вслепую.
  • 04 - шпаргалка с глоссарием и ссылками.