раздел 03
Качество и нюансы
Whisper хорош, но не безупречен. Качество расшифровки зависит от нескольких вещей, и часть из них вы можете контролировать.
Размер модели против точности
У Whisper есть несколько размеров: от tiny (самая маленькая) до large-v3 (самая большая). Чем больше модель, тем точнее распознавание и тем лучше она справляется со сложным звуком - но тем медленнее работает и тем больше требует мощности.
Шум, акценты, язык
- Шум. Фоновая музыка, эхо, несколько говорящих одновременно - всё это снижает точность. Чистый микрофон даёт лучший результат.
- Акценты и тихая речь. Сильный акцент или невнятная дикция могут путать модель.
- Язык. Лучше явно указать язык записи. Если в разговоре мешают два языка, распознавание частей на другом языке будет хуже.
Пунктуация и тайм-коды
Whisper сам расставляет знаки препинания и делит текст на предложения - обычно сносно. Дополнительно можно получить тайм-коды: к каждому фрагменту текста привязано время, когда он прозвучал. Это нужно для субтитров и для навигации по длинной записи.
Постобработка
Сырая расшифровка - это просто поток текста. Дальше его удобно обработать обычной языковой моделью:
- Сделать краткое саммари встречи.
- Вытащить список решений и задач.
- Почистить слова-паразиты и повторы, привести в читаемый вид.
То есть Whisper делает текст, а LLM превращает его в полезный результат.