раздел 06

Шпаргалка

Весь курс на одной странице.

VRAM -> что влезет (ориентир)

| VRAM | Модель (с квантизацией 4 бита) | | --- | --- | | 8 ГБ | до ~7-8B, простые задачи | | 16 ГБ | до ~13-14B, рабочий вариант | | 24 ГБ | около 30B, домашняя планка | | 80 ГБ | 70B и выше, серверные карты |

Все числа - ориентир по порядку величины, проверяйте под конкретную модель.

Чем запускать

| Сценарий | Инструмент | | --- | --- | | Локально, терминал | Ollama | | Локально, мышкой | LM Studio | | Сервер под нагрузкой | vLLM или TGI |

Где развернуть

  • Своё железо - постоянная нагрузка, максимум приватности, разовые вложения.
  • Облако с GPU - эпизодическая нагрузка, без вложений, оплата за время.

Self-host или API

  1. Малый объём, не секретно - почти всегда API. Проще и дешевле.
  2. Большой стабильный объём - считайте точку окупаемости, self-host может выиграть.
  3. Приватность / контроль / офлайн - self-host оправдан вне арифметики.
  4. Сомневаетесь - арендуйте GPU на неделю и посчитайте на своей нагрузке.

Правила

  1. Решает VRAM, а не обычная оперативка.
  2. Квантизация (обычно 4 бита) уменьшает память в разы при малой потере качества.
  3. Берите модель с запасом под контекст, не впритык.
  4. Средняя модель часто решает задачу - не гонитесь за самой большой.
  5. Проверяйте лицензию на коммерческое использование.

Подразделы