раздел 02 · подстраница 1

Квантизация на пальцах

Что это за тема

Веса модели - это числа. По умолчанию каждое число хранится с высокой точностью (16 бит). Квантизация - это огрубление: то же число хранят в меньшем числе бит, например 8 или 4. Чисел столько же, но каждое занимает меньше места, поэтому вся модель занимает меньше памяти.

Аналогия: фотографию можно сохранить в максимальном качестве или сжать в JPEG. Размер файла падает в разы, картинка чуть теряет в деталях, но на глаз почти такая же.

Зачем это вам

Модель влезает в меньшую видеокарту. 4-битная квантизация уменьшает размер примерно вчетверо против 16 бит - то, что не помещалось в 24 ГБ, помещается.
Работает быстрее. Меньше данных гонять через память - выше скорость.
Дешевле железо. Можно взять карту попроще или арендовать меньшую.

Цена за это - небольшая потеря качества. Для большинства задач она незаметна.

Как это работает на практике

Вы почти никогда не квантуете модель сами. Скачиваете уже готовый квантованный вариант - в названии файла стоит метка точности:

fp16 / bf16 - полная точность, самый большой размер, максимум качества.
8 бит (Q8) - вдвое меньше, потеря качества почти нулевая.
4 бита (Q4) - вчетверо меньше, лёгкая потеря качества. Самый популярный компромисс.
ниже 4 бит - ещё меньше, но качество уже заметно падает.

Инструменты вроде Ollama и LM Studio подбирают квантизацию за вас или предлагают выбрать.

Пример

Модель 13B в полной точности (16 бит) хочет примерно 26 ГБ - в 16-гигабайтную карту не влезает. Та же модель в 4 бита занимает около 7-8 ГБ и спокойно работает на 16 ГБ с запасом под контекст. Качество для разбора документов и переписки - практически то же. Числа - ориентир, проверяйте под конкретную модель.

Антипаттерны

Брать самую агрессивную квантизацию ради экономии. Ниже 4 бит качество часто проседает заметно - сравните на своей задаче.
Квантовать вручную с нуля. Почти всегда есть готовый квантованный вариант - возьмите его.
Думать, что квантизация делает модель умнее. Она только уменьшает память и не добавляет способностей.

Что дальше

Память и квантизацию разобрали. Дальше - чем модель запускать: Ollama и LM Studio локально, vLLM и TGI на сервере.