раздел 03

Инструменты

Что это

Скачать веса мало - нужна программа, которая загрузит модель в память и будет отвечать на запросы (это называется инференс). Инструменты делятся на две группы: локальные (для своего компьютера, одного пользователя) и серверные (для нагрузки и многих пользователей).

Локально: Ollama

Самый простой способ запустить модель на своём компьютере. Ставится одной командой, модели качаются одной командой, сама подбирает квантизацию под ваше железо. Поднимает локальный API, совместимый по формату с привычным, - к нему легко подключить свой код или чат-интерфейс.

Кому: тем, кто хочет «просто запустить модель локально» без возни.

Локально: LM Studio

То же по сути, но с графическим интерфейсом. Окно с чатом, каталог моделей, кнопки вместо команд. Удобно нетехническим пользователям и для быстрых экспериментов: попробовать модель, сравнить, пощупать.

Кому: тем, кому комфортнее мышкой, а не в терминале.

На сервере: vLLM

Движок инференса для серьёзной нагрузки. Выжимает максимум из GPU, эффективно обслуживает много одновременных запросов, держит высокую пропускную способность. Сложнее в настройке, чем Ollama, но именно его ставят, когда модель - часть продукта с реальными пользователями.

Кому: продакшн, много запросов, нужна производительность.

На сервере: TGI

Text Generation Inference - серверный движок от Hugging Face, та же ниша, что и vLLM: продакшн-инференс под нагрузкой, удобная отдача через API. Выбор между ними - по совместимости с вашей моделью и инфраструктурой.

Кому: продакшн в экосистеме Hugging Face.

Как выбрать

| Сценарий | Инструмент | | --- | --- | | Попробовать локально, в терминале | Ollama | | Попробовать локально, мышкой | LM Studio | | Продакшн под нагрузкой | vLLM или TGI |

Пример

Разработчик хочет локального ассистента для кода. Ставит Ollama, одной командой качает квантованную модель, подключает к редактору через локальный API. Когда из прототипа вырастает сервис на сотню пользователей - переезжает на сервер с GPU и vLLM, чтобы держать одновременные запросы.

Антипаттерны

Ставить vLLM ради локальных экспериментов. Перебор; Ollama или LM Studio проще.
Тянуть Ollama в продакшн под высокую нагрузку. Она про удобство, а не про максимум пропускной способности.
Игнорировать совместимость API. Берите инструмент с привычным форматом API - меньше переписывать код.