раздел 04

Шпаргалка

Где смотреть

ПлощадкаЧто показываетКогда смотреть
LMArena (lmarena.ai)Слепое голосование людей, рейтинг Elo, категорииКто сильнее в живом общении
HuggingFace Open LLM LeaderboardОпенсорс-модели на бенчмаркахНужна модель для запуска у себя
Artificial AnalysisЦена, скорость, качествоЧто выгоднее под ваш объём
Бенчмарки (MMLU, HumanEval)Баллы на стандартных тестахБыстрое сравнение по навыкам

Как пользоваться

  • Лидерборд - это старт поиска, а не истина для вашей задачи.
  • Разрыв между топами часто мал: первое место не обязательно лучше пятого для вас.
  • Берите категорию под свою задачу (код - в кодинге, а не в общем зачёте).
  • Сужайте до 2-3 кандидатов и тестируйте на своих реальных запросах.
  • Сверяйте пару источников и смотрите на свежие данные, рейтинги быстро устаревают.

Словарь терминов

ТерминЧто это
ЛидербордСписок моделей, отсортированный по результату.
EloРейтинг из побед и поражений, как в шахматах.
Слепое сравнениеГолос за ответ без знания, какая это модель.
БенчмаркСтандартный набор задач, одинаковый для всех моделей.
MMLUБенчмарк на широкие знания из разных областей.
HumanEvalБенчмарк на навык написания кода.
КатегорияОтдельный зачёт под тип задачи (код, тексты, математика).

Куда дальше