раздел 03
Инструменты
Что это
Скачать веса мало - нужна программа, которая загрузит модель в память и будет отвечать на запросы (это называется инференс). Инструменты делятся на две группы: локальные (для своего компьютера, одного пользователя) и серверные (для нагрузки и многих пользователей).
Локально: Ollama
Самый простой способ запустить модель на своём компьютере. Ставится одной командой, модели качаются одной командой, сама подбирает квантизацию под ваше железо. Поднимает локальный API, совместимый по формату с привычным, - к нему легко подключить свой код или чат-интерфейс.
Кому: тем, кто хочет «просто запустить модель локально» без возни.
Локально: LM Studio
То же по сути, но с графическим интерфейсом. Окно с чатом, каталог моделей, кнопки вместо команд. Удобно нетехническим пользователям и для быстрых экспериментов: попробовать модель, сравнить, пощупать.
Кому: тем, кому комфортнее мышкой, а не в терминале.
На сервере: vLLM
Движок инференса для серьёзной нагрузки. Выжимает максимум из GPU, эффективно обслуживает много одновременных запросов, держит высокую пропускную способность. Сложнее в настройке, чем Ollama, но именно его ставят, когда модель - часть продукта с реальными пользователями.
Кому: продакшн, много запросов, нужна производительность.
На сервере: TGI
Text Generation Inference - серверный движок от Hugging Face, та же ниша, что и vLLM: продакшн-инференс под нагрузкой, удобная отдача через API. Выбор между ними - по совместимости с вашей моделью и инфраструктурой.
Кому: продакшн в экосистеме Hugging Face.
Как выбрать
| Сценарий | Инструмент | | --- | --- | | Попробовать локально, в терминале | Ollama | | Попробовать локально, мышкой | LM Studio | | Продакшн под нагрузкой | vLLM или TGI |
Пример
Разработчик хочет локального ассистента для кода. Ставит Ollama, одной командой качает квантованную модель, подключает к редактору через локальный API. Когда из прототипа вырастает сервис на сотню пользователей - переезжает на сервер с GPU и vLLM, чтобы держать одновременные запросы.
Антипаттерны
- Ставить vLLM ради локальных экспериментов. Перебор; Ollama или LM Studio проще.
- Тянуть Ollama в продакшн под высокую нагрузку. Она про удобство, а не про максимум пропускной способности.
- Игнорировать совместимость API. Берите инструмент с привычным форматом API - меньше переписывать код.