раздел 00

Что такое Whisper

Whisper - это модель распознавания речи от OpenAI. По-английски такую задачу называют STT (speech-to-text, речь в текст). Вы даёте ей аудио или видео - она возвращает текст того, что было сказано.

Главное отличие от многих других нейросетей: Whisper открытая. Веса модели выложены публично, поэтому её можно запускать у себя на компьютере бесплатно, а можно через готовые облачные сервисы. Понимает много языков, включая русский, и неплохо справляется даже с не самой чистой записью.

Whisper не понимает смысл и не отвечает на вопросы. Её работа - аккуратно записать словами то, что прозвучало в аудио. Дальше с этим текстом можно делать что угодно.

Зачем это нужно

Транскрипции
Расшифровка встреч, звонков, интервью и подкастов в читаемый текст.
Субтитры
Реплики из видео для субтитров, нарезки и пересказа роликов.
Заметки голосом
Надиктовали мысль на телефон - получили готовый текст.

Что важно понять с самого начала

  • Whisper - про распознавание речи, а не про генерацию ответов. Это разные задачи и разные модели.
  • Запускать её можно по-разному, и от способа зависят скорость, цена и приватность. Об этом следующий раздел.
  • Точность не стопроцентная: имена, термины и плохой звук модель может разобрать неверно. Текст почти всегда стоит вычитать.