раздел 02

Другие лидерборды и бенчмарки

LMArena - не единственный источник. У живого голосования есть слабые места (например, людям нравятся длинные ответы), поэтому полезно смотреть и на другие площадки. Они меряют модели иначе.

LMArena

Слепое голосование людей. Показывает, чьи ответы выбирают чаще в живом общении.

HuggingFace Open LLM Leaderboard

Опенсорс-модели на стандартных тестах. Полезен, если хотите модель, которую можно скачать и запустить у себя.

Artificial Analysis

Сравнивает по цене, скорости и качеству. Помогает понять, что выгоднее, а не только что сильнее.

HuggingFace Open LLM Leaderboard

Площадка для опенсорс-моделей - тех, что выложены в открытый доступ, и которые можно запустить на своём железе. Модели прогоняют через набор стандартных тестов и выстраивают по баллам. Это место, куда стоит идти, если вам важна не самая сильная, а самая удобная для самостоятельного запуска модель.

Artificial Analysis

Эта площадка смотрит на модель не только глазами качества. Она сводит вместе три вещи: цену (сколько стоит запрос), скорость (как быстро приходит ответ) и качество. Топовая модель может быть слишком дорогой или медленной для вашей задачи - и здесь это сразу видно на графиках.

Что такое бенчмарки

Бенчмарк - это стандартный набор задач, одинаковый для всех моделей. Модель прогоняют через него и считают, сколько она решила правильно. Так получают сравнимые цифры. Самые известные:

MMLU - тест на широкие знания: тысячи вопросов из разных областей, от истории до медицины. Показывает общую эрудицию.
HumanEval - тест на программирование: модель пишет код, который проверяют автоматическими тестами. Показывает навык кодинга.

Бенчмарки удобны для быстрого сравнения, но у них есть проблема: модели иногда «видели» эти тесты при обучении, и высокий балл не всегда означает реальный навык.