раздел 04
Шпаргалка
Когда что выбирать
| Способ | Когда брать | Минус |
|---|---|---|
| Локально | Запись приватная, нельзя в облако | Нужна установка и мощность |
| OpenAI API | Хочется стабильно и без установки | Платно, запись уходит в облако |
| Groq | Быстро, дёшево, дефолт по умолчанию | Запись уходит в облако |
Что помнить про качество
- Большая модель (
large-v3) - точнее, маленькая - быстрее. - Чистый звук и моно дают лучший результат.
- Указывайте язык записи явно.
- Длинные файлы бейте на куски по 10-15 минут.
- Сырой текст почти всегда стоит вычитать и обработать через LLM.
Словарь терминов
| Термин | Что это |
|---|---|
STT | Speech-to-text, распознавание речи в текст. |
| Транскрипция | Текстовая расшифровка того, что было сказано в аудио. |
| Whisper | Открытая модель распознавания речи от OpenAI. |
whisper-large-v3 | Самая точная модель линейки, её запускает Groq. |
| Тайм-код | Привязка фрагмента текста ко времени в записи. |
Куда дальше
- Нейронки по API напрямую - как обработать расшифровку языковой моделью.
- fal.ai - облако для запуска открытых моделей под разные задачи.