раздел 03

Качество и нюансы

Whisper хорош, но не безупречен. Качество расшифровки зависит от нескольких вещей, и часть из них вы можете контролировать.

Размер модели против точности

У Whisper есть несколько размеров: от tiny (самая маленькая) до large-v3 (самая большая). Чем больше модель, тем точнее распознавание и тем лучше она справляется со сложным звуком - но тем медленнее работает и тем больше требует мощности.

Маленькие (tiny, base)

Быстрые и лёгкие, но чаще ошибаются. Годятся для черновика и простой чистой речи.

Средние (small, medium)

Разумный баланс скорости и качества для большинства задач.

Большая (large-v3)

Самая точная. Её и запускают облака вроде Groq.

Шум, акценты, язык

Шум. Фоновая музыка, эхо, несколько говорящих одновременно - всё это снижает точность. Чистый микрофон даёт лучший результат.
Акценты и тихая речь. Сильный акцент или невнятная дикция могут путать модель.
Язык. Лучше явно указать язык записи. Если в разговоре мешают два языка, распознавание частей на другом языке будет хуже.

Пунктуация и тайм-коды

Whisper сам расставляет знаки препинания и делит текст на предложения - обычно сносно. Дополнительно можно получить тайм-коды: к каждому фрагменту текста привязано время, когда он прозвучал. Это нужно для субтитров и для навигации по длинной записи.

Постобработка

Сырая расшифровка - это просто поток текста. Дальше его удобно обработать обычной языковой моделью:

Сделать краткое саммари встречи.
Вытащить список решений и задач.
Почистить слова-паразиты и повторы, привести в читаемый вид.

То есть Whisper делает текст, а LLM превращает его в полезный результат.