раздел 04

Шпаргалка

Когда что выбирать

СпособКогда братьМинус
ЛокальноЗапись приватная, нельзя в облакоНужна установка и мощность
OpenAI APIХочется стабильно и без установкиПлатно, запись уходит в облако
GroqБыстро, дёшево, дефолт по умолчаниюЗапись уходит в облако

Что помнить про качество

  • Большая модель (large-v3) - точнее, маленькая - быстрее.
  • Чистый звук и моно дают лучший результат.
  • Указывайте язык записи явно.
  • Длинные файлы бейте на куски по 10-15 минут.
  • Сырой текст почти всегда стоит вычитать и обработать через LLM.

Словарь терминов

ТерминЧто это
STTSpeech-to-text, распознавание речи в текст.
ТранскрипцияТекстовая расшифровка того, что было сказано в аудио.
WhisperОткрытая модель распознавания речи от OpenAI.
whisper-large-v3Самая точная модель линейки, её запускает Groq.
Тайм-кодПривязка фрагмента текста ко времени в записи.

Куда дальше

  • Нейронки по API напрямую - как обработать расшифровку языковой моделью.
  • fal.ai - облако для запуска открытых моделей под разные задачи.