раздел 01

Способы запустить

Один и тот же Whisper можно запустить тремя способами. Делают они одно и то же - превращают звук в текст, - но различаются по скорости, цене и приватности.

Локально
На своём компьютере. Бесплатно и приватно, но нужно поставить программу и иметь запас мощности.
OpenAI API
Через облако OpenAI. Просто и стабильно, платите за минуты аудио.
Groq
Облако Groq с моделью whisper-large-v3. Очень быстро и дёшево - удобный дефолт.

Локально

Модель работает прямо на вашем компьютере. Запись никуда не уходит, платить не нужно. Минус - надо установить программу, а скорость зависит от железа: на слабом ноутбуке большая модель будет считать долго.

Чаще всего используют два проекта:

  • faster-whisper - быстрая реализация, удобна, если есть видеокарта.
  • whisper.cpp - лёгкая версия, хорошо идёт даже без видеокарты, в том числе на Mac.

Подходит, когда запись приватная или её нельзя отправлять в облако.

OpenAI API

Вы отправляете файл в облако OpenAI и получаете текст. Ничего ставить не нужно, работает стабильно, качество предсказуемое. Платите за длительность аудио. Минус - запись уходит на сторонний сервер, и для каждого запроса нужен ключ доступа.

Подходит, когда не хочется возиться с установкой и важна стабильность.

Groq

Groq - это облако, которое запускает Whisper очень быстро. Используют модель whisper-large-v3 - самую точную из линейки. Скорость заметно выше, а цена низкая, поэтому Groq - удобный вариант по умолчанию для большинства задач.

Работает так же, как OpenAI API: отправили файл по ключу, получили текст. Минус тот же - запись уходит в облако.