раздел 06

Шпаргалка

Весь курс на одной странице.

VRAM -> что влезет (ориентир)

| VRAM | Модель (с квантизацией 4 бита) | | --- | --- | | 8 ГБ | до ~7-8B, простые задачи | | 16 ГБ | до ~13-14B, рабочий вариант | | 24 ГБ | около 30B, домашняя планка | | 80 ГБ | 70B и выше, серверные карты |

Все числа - ориентир по порядку величины, проверяйте под конкретную модель.

Чем запускать

| Сценарий | Инструмент | | --- | --- | | Локально, терминал | Ollama | | Локально, мышкой | LM Studio | | Сервер под нагрузкой | vLLM или TGI |

Где развернуть

Своё железо - постоянная нагрузка, максимум приватности, разовые вложения.
Облако с GPU - эпизодическая нагрузка, без вложений, оплата за время.

Self-host или API

Малый объём, не секретно - почти всегда API. Проще и дешевле.
Большой стабильный объём - считайте точку окупаемости, self-host может выиграть.
Приватность / контроль / офлайн - self-host оправдан вне арифметики.
Сомневаетесь - арендуйте GPU на неделю и посчитайте на своей нагрузке.

Правила

Решает VRAM, а не обычная оперативка.
Квантизация (обычно 4 бита) уменьшает память в разы при малой потере качества.
Берите модель с запасом под контекст, не впритык.
Средняя модель часто решает задачу - не гонитесь за самой большой.
Проверяйте лицензию на коммерческое использование.

Подразделы

Словарь терминов

VRAM, квантизация, веса, инференс, токенов в секунду, vLLM, Ollama - короткие определения.