раздел 04

Как тестировать на своей задаче

Что это

Публичные бенчмарки показывают «среднюю температуру по больнице». Ваша задача - частный случай, и модель-лидер рейтинга может проиграть на ней середняку. Поэтому финальное решение принимают не по чужим таблицам, а по тесту на своих данных.

Зачем это

  • Бенчмарки общие, ваша задача узкая - результаты часто расходятся.
  • На вашем языке и в вашем стиле модели ведут себя иначе, чем на английских тестах.
  • Тест сразу показывает реальную цену и скорость именно на вашем объёме.

Как это сделать

  1. Соберите мини-набор примеров. 20-50 реальных кейсов из вашей задачи с понятным «правильным» ответом. Не идеальные, а типичные - включая сложные и пограничные.
  2. Зафиксируйте промпт. Один и тот же промпт для всех моделей, иначе сравниваете не модели, а формулировки.
  3. Прогоните 3-5 моделей-кандидатов. По одной из каждого класса: флагман, сильный опенсорс, дешёвый компакт. Удобно через агрегатор - один ключ на всех.
  4. Оцените результат. Где можно - автоматически (совпало / не совпало). Где нельзя - руками по простой шкале «ок / приемлемо / плохо».
  5. Сведите в таблицу: качество, цена за прогон, скорость. Дальше выбор очевиден.

Пример

Задача - извлекать из писем дату и сумму. Берём 30 писем с известными ответами, один промпт, гоняем через четыре модели. Флагман: 30/30, но дорого. Средний опенсорс: 29/30 при цене в 15 раз ниже. Дешёвый компакт: 24/30 - ошибается на сложных форматах. Вывод: берём средний опенсорс, флагман держим в резерве на спорные случаи. Числа - условный пример.

Антипаттерны

  • Сравнивать на одном-двух примерах. Случайность; нужна выборка.
  • Разные промпты для разных моделей. Сравнение теряет смысл.
  • Смотреть только на качество, забыв про цену и скорость. Решение принимается по всем трём осям сразу.

Подразделы