раздел 02

Железо

Что это

Главный вопрос self-host: «влезет ли модель в моё железо». Ответ почти целиком определяется одним параметром - объёмом видеопамяти (VRAM) на GPU. Модель при работе должна целиком (или почти целиком) поместиться в VRAM, иначе она либо не запустится, либо будет работать мучительно медленно.

VRAM решает

VRAM - это память видеокарты, отдельная от обычной оперативной. Веса модели грузятся именно туда. Грубая прикидка: сколько весит модель на диске - столько примерно нужно VRAM плюс запас на сам контекст.

Квантизация - как уместить больше

Квантизация - это сжатие весов до меньшей точности (например, 4 или 8 бит вместо 16). Модель занимает в 2-4 раза меньше памяти, а качество падает незначительно. Именно квантизация позволяет запускать большие модели на доступных картах. Подробно - на отдельной странице.

Что влезет: ориентиры

| VRAM | Что реально запустить (с квантизацией) | | --- | --- | | 8 ГБ | Маленькие модели (примерно до 7-8B) в 4 бита. Для простых задач и экспериментов. | | 16 ГБ | Средние модели (примерно до 13-14B) комфортно. Рабочий вариант для многого. | | 24 ГБ | Модели побольше (около 30B) в квантизации. Хорошая «домашняя» планка. | | 80 ГБ | Крупные модели (70B и выше). Это уже серверные / дата-центровые карты. |

Размеры в B - миллиарды параметров. Цифры примерные: одна и та же VRAM при более агрессивной квантизации тянет модель крупнее, но с большей потерей качества.

Можно ли без видеокарты

Запустить на обычном процессоре (CPU) можно - инструменты это умеют, особенно для маленьких квантованных моделей. Но скорость будет в разы ниже: ответ может идти неприятно медленно. Для серьёзной работы нужен GPU.

Пример

У вас игровая видеокарта на 16 ГБ. По таблице - комфортно идёт модель около 13B в 4-битной квантизации. Этого хватает для локального ассистента, разбора документов и кода средней сложности. Хотите 70B - либо арендуете GPU в облаке, либо ставите серверную карту на 80 ГБ.

Антипаттерны

Смотреть на обычную оперативку вместо VRAM. Решает память видеокарты.
Брать модель без запаса под контекст. Веса влезли впритык - на длинный контекст памяти уже не хватит.
Ждать скорости GPU от запуска на CPU. Работать будет, но медленно.

Подразделы

Квантизация на пальцах

Почему модель в 4 бита занимает в разы меньше памяти и что при этом теряется в качестве.