раздел 04
Как тестировать на своей задаче
Что это
Публичные бенчмарки показывают «среднюю температуру по больнице». Ваша задача - частный случай, и модель-лидер рейтинга может проиграть на ней середняку. Поэтому финальное решение принимают не по чужим таблицам, а по тесту на своих данных.
Зачем это
- Бенчмарки общие, ваша задача узкая - результаты часто расходятся.
- На вашем языке и в вашем стиле модели ведут себя иначе, чем на английских тестах.
- Тест сразу показывает реальную цену и скорость именно на вашем объёме.
Как это сделать
- Соберите мини-набор примеров. 20-50 реальных кейсов из вашей задачи с понятным «правильным» ответом. Не идеальные, а типичные - включая сложные и пограничные.
- Зафиксируйте промпт. Один и тот же промпт для всех моделей, иначе сравниваете не модели, а формулировки.
- Прогоните 3-5 моделей-кандидатов. По одной из каждого класса: флагман, сильный опенсорс, дешёвый компакт. Удобно через агрегатор - один ключ на всех.
- Оцените результат. Где можно - автоматически (совпало / не совпало). Где нельзя - руками по простой шкале «ок / приемлемо / плохо».
- Сведите в таблицу: качество, цена за прогон, скорость. Дальше выбор очевиден.
Пример
Задача - извлекать из писем дату и сумму. Берём 30 писем с известными ответами, один промпт, гоняем через четыре модели. Флагман: 30/30, но дорого. Средний опенсорс: 29/30 при цене в 15 раз ниже. Дешёвый компакт: 24/30 - ошибается на сложных форматах. Вывод: берём средний опенсорс, флагман держим в резерве на спорные случаи. Числа - условный пример.
Антипаттерны
- Сравнивать на одном-двух примерах. Случайность; нужна выборка.
- Разные промпты для разных моделей. Сравнение теряет смысл.
- Смотреть только на качество, забыв про цену и скорость. Решение принимается по всем трём осям сразу.