раздел 04

Как тестировать на своей задаче

Что это

Публичные бенчмарки показывают «среднюю температуру по больнице». Ваша задача - частный случай, и модель-лидер рейтинга может проиграть на ней середняку. Поэтому финальное решение принимают не по чужим таблицам, а по тесту на своих данных.

Зачем это

Бенчмарки общие, ваша задача узкая - результаты часто расходятся.
На вашем языке и в вашем стиле модели ведут себя иначе, чем на английских тестах.
Тест сразу показывает реальную цену и скорость именно на вашем объёме.

Как это сделать

Соберите мини-набор примеров. 20-50 реальных кейсов из вашей задачи с понятным «правильным» ответом. Не идеальные, а типичные - включая сложные и пограничные.
Зафиксируйте промпт. Один и тот же промпт для всех моделей, иначе сравниваете не модели, а формулировки.
Прогоните 3-5 моделей-кандидатов. По одной из каждого класса: флагман, сильный опенсорс, дешёвый компакт. Удобно через агрегатор - один ключ на всех.
Оцените результат. Где можно - автоматически (совпало / не совпало). Где нельзя - руками по простой шкале «ок / приемлемо / плохо».
Сведите в таблицу: качество, цена за прогон, скорость. Дальше выбор очевиден.

Пример

Задача - извлекать из писем дату и сумму. Берём 30 писем с известными ответами, один промпт, гоняем через четыре модели. Флагман: 30/30, но дорого. Средний опенсорс: 29/30 при цене в 15 раз ниже. Дешёвый компакт: 24/30 - ошибается на сложных форматах. Вывод: берём средний опенсорс, флагман держим в резерве на спорные случаи. Числа - условный пример.

Антипаттерны

Сравнивать на одном-двух примерах. Случайность; нужна выборка.
Разные промпты для разных моделей. Сравнение теряет смысл.
Смотреть только на качество, забыв про цену и скорость. Решение принимается по всем трём осям сразу.