раздел 02
Другие лидерборды и бенчмарки
LMArena - не единственный источник. У живого голосования есть слабые места (например, людям нравятся длинные ответы), поэтому полезно смотреть и на другие площадки. Они меряют модели иначе.
HuggingFace Open LLM Leaderboard
Площадка для опенсорс-моделей - тех, что выложены в открытый доступ, и которые можно запустить на своём железе. Модели прогоняют через набор стандартных тестов и выстраивают по баллам. Это место, куда стоит идти, если вам важна не самая сильная, а самая удобная для самостоятельного запуска модель.
Artificial Analysis
Эта площадка смотрит на модель не только глазами качества. Она сводит вместе три вещи: цену (сколько стоит запрос), скорость (как быстро приходит ответ) и качество. Топовая модель может быть слишком дорогой или медленной для вашей задачи - и здесь это сразу видно на графиках.
Что такое бенчмарки
Бенчмарк - это стандартный набор задач, одинаковый для всех моделей. Модель прогоняют через него и считают, сколько она решила правильно. Так получают сравнимые цифры. Самые известные:
MMLU- тест на широкие знания: тысячи вопросов из разных областей, от истории до медицины. Показывает общую эрудицию.HumanEval- тест на программирование: модель пишет код, который проверяют автоматическими тестами. Показывает навык кодинга.
Бенчмарки удобны для быстрого сравнения, но у них есть проблема: модели иногда «видели» эти тесты при обучении, и высокий балл не всегда означает реальный навык.