раздел 02

Как пользоваться на практике

Сценарий всегда один и тот же: подготовили звук - отправили - получили текст. Разберём по шагам.

Подготовить аудио

Достать звук из видео, перевести в моно, при необходимости сжать.

Отправить на распознавание

Загрузить файл локальной программе или в облако (OpenAI, Groq).

Получить текст

На выходе - расшифровка. Её обычно стоит вычитать.

Подготовить аудио

Whisper принимает обычные форматы: mp3, wav, m4a, можно дать и видео - звук вытащат сами инструменты. Несколько простых правил сильно облегчают жизнь:

Переведите запись в моно (одна дорожка). Для речи стерео не нужно, а файл становится вдвое меньше.
Понизьте битрейт. Для голоса хватает низкого качества - текст от этого не страдает, а файл уменьшается.
Уберите длинные паузы и музыку в начале, если они не нужны.

Чем меньше и чище файл, тем быстрее и дешевле распознавание, особенно в облаке.

Отправить и получить текст

При локальном запуске вы просто указываете программе файл и язык. В облаке отправляете файл по ключу доступа. Вот как примерно выглядит запрос к API (на примере Groq):

curl https://api.groq.com/openai/v1/audio/transcriptions \
  -H "Authorization: Bearer $GROQ_API_KEY" \
  -F "model=whisper-large-v3" \
  -F "language=ru" \
  -F "file=@meeting.mp3"

В ответ приходит текст расшифровки. Параметр language=ru подсказывает модели язык - так точнее, чем когда она угадывает сама.

Длинные записи

Часовые встречи удобнее бить на куски по 10-15 минут и распознавать по отдельности, а потом склеивать тексты. Так меньше шансов упереться в ограничение на размер файла, проще перезапустить один кусок, если что-то пошло не так, и легче следить за прогрессом.