Whisper: речь в текст
Whisper - открытая модель распознавания речи от OpenAI. Она превращает аудио и видео в текст на многих языках, включая русский. Запускают её по-разному: локально, через OpenAI API или через Groq - быстро и дёшево. Этот гайд объясняет простыми словами, какой способ выбрать, как готовить звук и от чего зависит точность.

для кого этот курс
программа курса
Что такое Whisper
Открытая модель распознавания речи от OpenAI: превращает аудио и видео в текст, понимает много языков, включая русский. Зачем она нужна - транскрипции, субтитры, заметки голосом.
Способы запустить
Три пути: локально (faster-whisper, whisper.cpp), через OpenAI API и через Groq (модель whisper-large-v3, быстро и дёшево). Плюсы и минусы каждого.
Как пользоваться на практике
Подготовить аудио (формат, моно, сжатие), отправить на распознавание, получить текст. Короткий пример запроса к API. Длинные записи делить на части.
Качество и нюансы
Размер модели против точности, шум и акценты, язык, пунктуация и тайм-коды. Постобработка: саммари и чистка текста через LLM.
Шпаргалка
Когда что выбирать (локально / API / Groq), словарь терминов и ссылки на соседние разделы.