раздел 04
Шпаргалка
Где смотреть
| Площадка | Что показывает | Когда смотреть |
|---|---|---|
LMArena (lmarena.ai) | Слепое голосование людей, рейтинг Elo, категории | Кто сильнее в живом общении |
| HuggingFace Open LLM Leaderboard | Опенсорс-модели на бенчмарках | Нужна модель для запуска у себя |
| Artificial Analysis | Цена, скорость, качество | Что выгоднее под ваш объём |
| Бенчмарки (MMLU, HumanEval) | Баллы на стандартных тестах | Быстрое сравнение по навыкам |
Как пользоваться
- Лидерборд - это старт поиска, а не истина для вашей задачи.
- Разрыв между топами часто мал: первое место не обязательно лучше пятого для вас.
- Берите категорию под свою задачу (код - в кодинге, а не в общем зачёте).
- Сужайте до 2-3 кандидатов и тестируйте на своих реальных запросах.
- Сверяйте пару источников и смотрите на свежие данные, рейтинги быстро устаревают.
Словарь терминов
| Термин | Что это |
|---|---|
| Лидерборд | Список моделей, отсортированный по результату. |
| Elo | Рейтинг из побед и поражений, как в шахматах. |
| Слепое сравнение | Голос за ответ без знания, какая это модель. |
| Бенчмарк | Стандартный набор задач, одинаковый для всех моделей. |
| MMLU | Бенчмарк на широкие знания из разных областей. |
| HumanEval | Бенчмарк на навык написания кода. |
| Категория | Отдельный зачёт под тип задачи (код, тексты, математика). |
Куда дальше
- Выбор модели под задачу - как подбирать модель под конкретную работу.
- Кодинговые модели - что брать для написания кода.