раздел 02
Как пользоваться на практике
Сценарий всегда один и тот же: подготовили звук - отправили - получили текст. Разберём по шагам.
Подготовить аудио
Whisper принимает обычные форматы: mp3, wav, m4a, можно дать и видео - звук вытащат сами инструменты. Несколько простых правил сильно облегчают жизнь:
- Переведите запись в моно (одна дорожка). Для речи стерео не нужно, а файл становится вдвое меньше.
- Понизьте битрейт. Для голоса хватает низкого качества - текст от этого не страдает, а файл уменьшается.
- Уберите длинные паузы и музыку в начале, если они не нужны.
Чем меньше и чище файл, тем быстрее и дешевле распознавание, особенно в облаке.
Отправить и получить текст
При локальном запуске вы просто указываете программе файл и язык. В облаке отправляете файл по ключу доступа. Вот как примерно выглядит запрос к API (на примере Groq):
curl https://api.groq.com/openai/v1/audio/transcriptions \
-H "Authorization: Bearer $GROQ_API_KEY" \
-F "model=whisper-large-v3" \
-F "language=ru" \
-F "file=@meeting.mp3"
В ответ приходит текст расшифровки. Параметр language=ru подсказывает модели язык - так точнее, чем когда она угадывает сама.
Длинные записи
Часовые встречи удобнее бить на куски по 10-15 минут и распознавать по отдельности, а потом склеивать тексты. Так меньше шансов упереться в ограничение на размер файла, проще перезапустить один кусок, если что-то пошло не так, и легче следить за прогрессом.