раздел 06
Шпаргалка
Весь курс на одной странице.
VRAM -> что влезет (ориентир)
| VRAM | Модель (с квантизацией 4 бита) | | --- | --- | | 8 ГБ | до ~7-8B, простые задачи | | 16 ГБ | до ~13-14B, рабочий вариант | | 24 ГБ | около 30B, домашняя планка | | 80 ГБ | 70B и выше, серверные карты |
Все числа - ориентир по порядку величины, проверяйте под конкретную модель.
Чем запускать
| Сценарий | Инструмент | | --- | --- | | Локально, терминал | Ollama | | Локально, мышкой | LM Studio | | Сервер под нагрузкой | vLLM или TGI |
Где развернуть
- Своё железо - постоянная нагрузка, максимум приватности, разовые вложения.
- Облако с GPU - эпизодическая нагрузка, без вложений, оплата за время.
Self-host или API
- Малый объём, не секретно - почти всегда API. Проще и дешевле.
- Большой стабильный объём - считайте точку окупаемости, self-host может выиграть.
- Приватность / контроль / офлайн - self-host оправдан вне арифметики.
- Сомневаетесь - арендуйте GPU на неделю и посчитайте на своей нагрузке.
Правила
- Решает VRAM, а не обычная оперативка.
- Квантизация (обычно 4 бита) уменьшает память в разы при малой потере качества.
- Берите модель с запасом под контекст, не впритык.
- Средняя модель часто решает задачу - не гонитесь за самой большой.
- Проверяйте лицензию на коммерческое использование.