модели · речь

Whisper: речь в текст

Whisper - открытая модель распознавания речи от OpenAI. Она превращает аудио и видео в текст на многих языках, включая русский. Запускают её по-разному: локально, через OpenAI API или через Groq - быстро и дёшево. Этот гайд объясняет простыми словами, какой способ выбрать, как готовить звук и от чего зависит точность.

Начать с начала →Сразу к шпаргалке

для кого этот курс

Расшифровать встречу

Есть запись звонка или интервью - хочу получить текст, чтобы не слушать заново.

Сделать субтитры

Нужно вытащить из видео реплики и собрать заметки или субтитры.

Не знаю, что выбрать

Слышал про Whisper, локально, Groq, API - но не понимаю, чем они отличаются.

программа курса

Что такое Whisper

Открытая модель распознавания речи от OpenAI: превращает аудио и видео в текст, понимает много языков, включая русский. Зачем она нужна - транскрипции, субтитры, заметки голосом.

Способы запустить

Три пути: локально (faster-whisper, whisper.cpp), через OpenAI API и через Groq (модель whisper-large-v3, быстро и дёшево). Плюсы и минусы каждого.

Как пользоваться на практике

Подготовить аудио (формат, моно, сжатие), отправить на распознавание, получить текст. Короткий пример запроса к API. Длинные записи делить на части.

Качество и нюансы

Размер модели против точности, шум и акценты, язык, пунктуация и тайм-коды. Постобработка: саммари и чистка текста через LLM.

Шпаргалка

Когда что выбирать (локально / API / Groq), словарь терминов и ссылки на соседние разделы.