раздел 02 · подстраница 1
Квантизация на пальцах
Что это за тема
Веса модели - это числа. По умолчанию каждое число хранится с высокой точностью (16 бит). Квантизация - это огрубление: то же число хранят в меньшем числе бит, например 8 или 4. Чисел столько же, но каждое занимает меньше места, поэтому вся модель занимает меньше памяти.
Аналогия: фотографию можно сохранить в максимальном качестве или сжать в JPEG. Размер файла падает в разы, картинка чуть теряет в деталях, но на глаз почти такая же.
Зачем это вам
- Модель влезает в меньшую видеокарту. 4-битная квантизация уменьшает размер примерно вчетверо против 16 бит - то, что не помещалось в 24 ГБ, помещается.
- Работает быстрее. Меньше данных гонять через память - выше скорость.
- Дешевле железо. Можно взять карту попроще или арендовать меньшую.
Цена за это - небольшая потеря качества. Для большинства задач она незаметна.
Как это работает на практике
Вы почти никогда не квантуете модель сами. Скачиваете уже готовый квантованный вариант - в названии файла стоит метка точности:
- fp16 / bf16 - полная точность, самый большой размер, максимум качества.
- 8 бит (Q8) - вдвое меньше, потеря качества почти нулевая.
- 4 бита (Q4) - вчетверо меньше, лёгкая потеря качества. Самый популярный компромисс.
- ниже 4 бит - ещё меньше, но качество уже заметно падает.
Инструменты вроде Ollama и LM Studio подбирают квантизацию за вас или предлагают выбрать.
Пример
Модель 13B в полной точности (16 бит) хочет примерно 26 ГБ - в 16-гигабайтную карту не влезает. Та же модель в 4 бита занимает около 7-8 ГБ и спокойно работает на 16 ГБ с запасом под контекст. Качество для разбора документов и переписки - практически то же. Числа - ориентир, проверяйте под конкретную модель.
Антипаттерны
- Брать самую агрессивную квантизацию ради экономии. Ниже 4 бит качество часто проседает заметно - сравните на своей задаче.
- Квантовать вручную с нуля. Почти всегда есть готовый квантованный вариант - возьмите его.
- Думать, что квантизация делает модель умнее. Она только уменьшает память и не добавляет способностей.
Что дальше
Память и квантизацию разобрали. Дальше - чем модель запускать: Ollama и LM Studio локально, vLLM и TGI на сервере.