раздел 00
Что такое Whisper
Whisper - это модель распознавания речи от OpenAI. По-английски такую задачу называют STT (speech-to-text, речь в текст). Вы даёте ей аудио или видео - она возвращает текст того, что было сказано.
Главное отличие от многих других нейросетей: Whisper открытая. Веса модели выложены публично, поэтому её можно запускать у себя на компьютере бесплатно, а можно через готовые облачные сервисы. Понимает много языков, включая русский, и неплохо справляется даже с не самой чистой записью.
Whisper не понимает смысл и не отвечает на вопросы. Её работа - аккуратно записать словами то, что прозвучало в аудио. Дальше с этим текстом можно делать что угодно.
Зачем это нужно
Транскрипции
Расшифровка встреч, звонков, интервью и подкастов в читаемый текст.
Субтитры
Реплики из видео для субтитров, нарезки и пересказа роликов.
Заметки голосом
Надиктовали мысль на телефон - получили готовый текст.
Что важно понять с самого начала
- Whisper - про распознавание речи, а не про генерацию ответов. Это разные задачи и разные модели.
- Запускать её можно по-разному, и от способа зависят скорость, цена и приватность. Об этом следующий раздел.
- Точность не стопроцентная: имена, термины и плохой звук модель может разобрать неверно. Текст почти всегда стоит вычитать.