раздел 06 · подстраница 1

Словарь терминов

Короткие определения - всё, что встречалось в курсе.

Опенсорс-модель - модель с публично доступными весами (Llama, Qwen, DeepSeek, Mistral, Gemma). Можно скачать, запустить у себя и дообучить.

Веса - набор чисел, полученных при обучении; собственно «мозг» модели. У закрытых моделей в открытом доступе их нет.

Self-host - запуск модели на своём железе или арендованном сервере, а не через чужой API.

Инференс - процесс работы готовой модели: загрузить в память и генерировать ответы на запросы.

GPU - видеокарта. На ней работает модель; ключевой ресурс для self-host.

VRAM - видеопамять на GPU. Главный ограничитель: модель должна в неё поместиться.

Параметры (B) - размер модели в миллиардах параметров (7B, 14B, 70B). Больше - умнее и тяжелее.

Квантизация - сжатие весов до меньшей точности (4/8 бит) ради экономии памяти при малой потере качества.

fp16 / Q8 / Q4 - метки точности весов: полная, 8 бит, 4 бита. Чем ниже - тем меньше памяти и тем больше потеря качества.

Токенов в секунду - скорость генерации ответа. Чем выше, тем быстрее модель «печатает».

Ollama - простой инструмент для локального запуска моделей через терминал.

LM Studio - локальный запуск моделей с графическим интерфейсом.

vLLM / TGI - серверные движки инференса для продакшна под нагрузкой.

Точка окупаемости - объём запросов, при котором self-host становится дешевле облачного API.