раздел 01

LMArena: слепое голосование

LMArena (раньше называлась Chatbot Arena, сайт lmarena.ai) - самая известная площадка сравнения моделей. Идея простая: вместо тестов на бумаге пусть живые люди вслепую решают, чей ответ лучше. Из тысяч таких голосов складывается рейтинг.

Как это работает

1
Задаёте вопрос
Пишете любой запрос - вопрос, задачу, просьбу что-то написать.
2
Видите два ответа
Площадка показывает два ответа от разных моделей, но не говорит, какие это модели.
3
Голосуете за лучший
Выбираете, чей ответ вам понравился больше. Только после этого видно, кто есть кто.
4
Из голосов считается рейтинг
Тысячи таких голосов превращаются в рейтинг Elo, и по нему строится лидерборд.

Имена моделей скрыты до самого голоса. Вы не знаете, что сравниваете дорогую модель от OpenAI с бесплатной опенсорс-моделью, - и выбираете честно, по ответу, а не по бренду.

Рейтинг Elo

Elo - та же система, что и в шахматах. У каждой модели есть число очков. Если модель чаще выигрывает у сильных соперников, её рейтинг растёт; если проигрывает - падает. Чем больше голосов, тем точнее оценка. В итоге получается список, где сверху те, чьи ответы люди выбирают чаще всего.

Категории

Один общий рейтинг - это грубо. Поэтому на арене есть категории: общий зачёт, кодинг, работа с длинными текстами, математика и другие. Модель может быть сильной в коде, но средней в общении - и категории это показывают.

Слепое сравнение убирает эффект бренда и красивых обещаний. Остаётся только одно: чей ответ человеку реально удобнее и полезнее.

Почему слепое сравнение честнее

Разработчик модели может подобрать тесты, на которых он выглядит лучше всех. На арене так не получится: вопросы задают обычные люди про что угодно, имена скрыты, а выборка - тысячи голосов. Это ближе к реальному использованию, чем любой набор задач на бумаге.