раздел 01
LMArena: слепое голосование
LMArena (раньше называлась Chatbot Arena, сайт lmarena.ai) - самая известная площадка сравнения моделей. Идея простая: вместо тестов на бумаге пусть живые люди вслепую решают, чей ответ лучше. Из тысяч таких голосов складывается рейтинг.
Как это работает
Имена моделей скрыты до самого голоса. Вы не знаете, что сравниваете дорогую модель от OpenAI с бесплатной опенсорс-моделью, - и выбираете честно, по ответу, а не по бренду.
Рейтинг Elo
Elo - та же система, что и в шахматах. У каждой модели есть число очков. Если модель чаще выигрывает у сильных соперников, её рейтинг растёт; если проигрывает - падает. Чем больше голосов, тем точнее оценка. В итоге получается список, где сверху те, чьи ответы люди выбирают чаще всего.
Категории
Один общий рейтинг - это грубо. Поэтому на арене есть категории: общий зачёт, кодинг, работа с длинными текстами, математика и другие. Модель может быть сильной в коде, но средней в общении - и категории это показывают.
Слепое сравнение убирает эффект бренда и красивых обещаний. Остаётся только одно: чей ответ человеку реально удобнее и полезнее.
Почему слепое сравнение честнее
Разработчик модели может подобрать тесты, на которых он выглядит лучше всех. На арене так не получится: вопросы задают обычные люди про что угодно, имена скрыты, а выборка - тысячи голосов. Это ближе к реальному использованию, чем любой набор задач на бумаге.