раздел 01

LMArena: слепое голосование

LMArena (раньше называлась Chatbot Arena, сайт lmarena.ai) - самая известная площадка сравнения моделей. Идея простая: вместо тестов на бумаге пусть живые люди вслепую решают, чей ответ лучше. Из тысяч таких голосов складывается рейтинг.

Как это работает

Задаёте вопрос

Пишете любой запрос - вопрос, задачу, просьбу что-то написать.

Видите два ответа

Площадка показывает два ответа от разных моделей, но не говорит, какие это модели.

Голосуете за лучший

Выбираете, чей ответ вам понравился больше. Только после этого видно, кто есть кто.

Из голосов считается рейтинг

Тысячи таких голосов превращаются в рейтинг Elo, и по нему строится лидерборд.

Имена моделей скрыты до самого голоса. Вы не знаете, что сравниваете дорогую модель от OpenAI с бесплатной опенсорс-моделью, - и выбираете честно, по ответу, а не по бренду.

Рейтинг Elo

Elo - та же система, что и в шахматах. У каждой модели есть число очков. Если модель чаще выигрывает у сильных соперников, её рейтинг растёт; если проигрывает - падает. Чем больше голосов, тем точнее оценка. В итоге получается список, где сверху те, чьи ответы люди выбирают чаще всего.

Категории

Один общий рейтинг - это грубо. Поэтому на арене есть категории: общий зачёт, кодинг, работа с длинными текстами, математика и другие. Модель может быть сильной в коде, но средней в общении - и категории это показывают.

Слепое сравнение убирает эффект бренда и красивых обещаний. Остаётся только одно: чей ответ человеку реально удобнее и полезнее.

Почему слепое сравнение честнее

Разработчик модели может подобрать тесты, на которых он выглядит лучше всех. На арене так не получится: вопросы задают обычные люди про что угодно, имена скрыты, а выборка - тысячи голосов. Это ближе к реальному использованию, чем любой набор задач на бумаге.