раздел 01
Способы запустить
Один и тот же Whisper можно запустить тремя способами. Делают они одно и то же - превращают звук в текст, - но различаются по скорости, цене и приватности.
Локально
Модель работает прямо на вашем компьютере. Запись никуда не уходит, платить не нужно. Минус - надо установить программу, а скорость зависит от железа: на слабом ноутбуке большая модель будет считать долго.
Чаще всего используют два проекта:
faster-whisper- быстрая реализация, удобна, если есть видеокарта.whisper.cpp- лёгкая версия, хорошо идёт даже без видеокарты, в том числе на Mac.
Подходит, когда запись приватная или её нельзя отправлять в облако.
OpenAI API
Вы отправляете файл в облако OpenAI и получаете текст. Ничего ставить не нужно, работает стабильно, качество предсказуемое. Платите за длительность аудио. Минус - запись уходит на сторонний сервер, и для каждого запроса нужен ключ доступа.
Подходит, когда не хочется возиться с установкой и важна стабильность.
Groq
Groq - это облако, которое запускает Whisper очень быстро. Используют модель whisper-large-v3 - самую точную из линейки. Скорость заметно выше, а цена низкая, поэтому Groq - удобный вариант по умолчанию для большинства задач.
Работает так же, как OpenAI API: отправили файл по ключу, получили текст. Минус тот же - запись уходит в облако.