модели · сравнение

Арены и лидерборды:
как сравнивают модели

Моделей много, и новые выходят каждую неделю. Чтобы понять, кто сейчас сильнее и под какую задачу, придумали арены и лидерборды. Самая известная - LMArena, где люди вслепую голосуют за лучший ответ. Этот гайд объясняет, откуда берутся рейтинги и как ими пользоваться с умом.

Арены и лидерборды: слепое сравнение моделей и рейтинг Elo

для кого этот курс

Какая модель лучше
Вышла новая модель, все её хвалят - хочу понять, где это видно и кому верить.
Что за рейтинг Elo
Слышал про LMArena и лидерборды, но не понимаю, как считаются эти цифры.
Как выбрать под себя
Хочу не верхушку списка, а модель, которая лучше всего решит именно мою задачу.

программа курса

00

Зачем сравнивать модели

Моделей много, релизы выходят каждую неделю. Нужен способ понять, кто сейчас сильнее и под какую задачу. Откуда берутся рейтинги и зачем они нужны.

01

LMArena: слепое голосование

Как работает площадка: два анонимных ответа, голос за лучший, рейтинг Elo и лидерборд. Категории под задачи. Почему слепое сравнение честнее тестов на бумаге.

02

Другие лидерборды и бенчмарки

HuggingFace Open LLM Leaderboard для опенсорс-моделей, Artificial Analysis про цену, скорость и качество. Что такое бенчмарки (MMLU, HumanEval) простыми словами.

03

Как пользоваться с умом

Лидерборд - это старт, а не истина для вашей задачи. Разрыв между топами часто мал. Тестируйте на своих задачах и смотрите категорию под свою работу.

04

Шпаргалка

Где смотреть рейтинги, глоссарий терминов (Elo, бенчмарк, лидерборд, слепое сравнение) и ссылки на смежные курсы на одной странице.