раздел 06 · подстраница 1
Словарь терминов
Короткие определения - всё, что встречалось в курсе.
Опенсорс-модель - модель с публично доступными весами (Llama, Qwen, DeepSeek, Mistral, Gemma). Можно скачать, запустить у себя и дообучить.
Веса - набор чисел, полученных при обучении; собственно «мозг» модели. У закрытых моделей в открытом доступе их нет.
Self-host - запуск модели на своём железе или арендованном сервере, а не через чужой API.
Инференс - процесс работы готовой модели: загрузить в память и генерировать ответы на запросы.
GPU - видеокарта. На ней работает модель; ключевой ресурс для self-host.
VRAM - видеопамять на GPU. Главный ограничитель: модель должна в неё поместиться.
Параметры (B) - размер модели в миллиардах параметров (7B, 14B, 70B). Больше - умнее и тяжелее.
Квантизация - сжатие весов до меньшей точности (4/8 бит) ради экономии памяти при малой потере качества.
fp16 / Q8 / Q4 - метки точности весов: полная, 8 бит, 4 бита. Чем ниже - тем меньше памяти и тем больше потеря качества.
Токенов в секунду - скорость генерации ответа. Чем выше, тем быстрее модель «печатает».
Ollama - простой инструмент для локального запуска моделей через терминал.
LM Studio - локальный запуск моделей с графическим интерфейсом.
vLLM / TGI - серверные движки инференса для продакшна под нагрузкой.
Точка окупаемости - объём запросов, при котором self-host становится дешевле облачного API.