раздел 04

Шпаргалка

Где смотреть

Площадка	Что показывает	Когда смотреть
LMArena (`lmarena.ai`)	Слепое голосование людей, рейтинг Elo, категории	Кто сильнее в живом общении
HuggingFace Open LLM Leaderboard	Опенсорс-модели на бенчмарках	Нужна модель для запуска у себя
Artificial Analysis	Цена, скорость, качество	Что выгоднее под ваш объём
Бенчмарки (MMLU, HumanEval)	Баллы на стандартных тестах	Быстрое сравнение по навыкам

Как пользоваться

Лидерборд - это старт поиска, а не истина для вашей задачи.
Разрыв между топами часто мал: первое место не обязательно лучше пятого для вас.
Берите категорию под свою задачу (код - в кодинге, а не в общем зачёте).
Сужайте до 2-3 кандидатов и тестируйте на своих реальных запросах.
Сверяйте пару источников и смотрите на свежие данные, рейтинги быстро устаревают.

Словарь терминов

Термин	Что это
Лидерборд	Список моделей, отсортированный по результату.
Elo	Рейтинг из побед и поражений, как в шахматах.
Слепое сравнение	Голос за ответ без знания, какая это модель.
Бенчмарк	Стандартный набор задач, одинаковый для всех моделей.
MMLU	Бенчмарк на широкие знания из разных областей.
HumanEval	Бенчмарк на навык написания кода.
Категория	Отдельный зачёт под тип задачи (код, тексты, математика).

Куда дальше

Выбор модели под задачу - как подбирать модель под конкретную работу.
Кодинговые модели - что брать для написания кода.