Арены и лидерборды:
как сравнивают модели
Моделей много, и новые выходят каждую неделю. Чтобы понять, кто сейчас сильнее и под какую задачу, придумали арены и лидерборды. Самая известная - LMArena, где люди вслепую голосуют за лучший ответ. Этот гайд объясняет, откуда берутся рейтинги и как ими пользоваться с умом.

для кого этот курс
программа курса
Зачем сравнивать модели
Моделей много, релизы выходят каждую неделю. Нужен способ понять, кто сейчас сильнее и под какую задачу. Откуда берутся рейтинги и зачем они нужны.
LMArena: слепое голосование
Как работает площадка: два анонимных ответа, голос за лучший, рейтинг Elo и лидерборд. Категории под задачи. Почему слепое сравнение честнее тестов на бумаге.
Другие лидерборды и бенчмарки
HuggingFace Open LLM Leaderboard для опенсорс-моделей, Artificial Analysis про цену, скорость и качество. Что такое бенчмарки (MMLU, HumanEval) простыми словами.
Как пользоваться с умом
Лидерборд - это старт, а не истина для вашей задачи. Разрыв между топами часто мал. Тестируйте на своих задачах и смотрите категорию под свою работу.
Шпаргалка
Где смотреть рейтинги, глоссарий терминов (Elo, бенчмарк, лидерборд, слепое сравнение) и ссылки на смежные курсы на одной странице.