раздел 02

Как работает LLM

Не нужно знать математику, чтобы принимать верные решения. Нужна одна правильная ментальная модель - и из неё выводится почти всё поведение модели.

Главная аналогия

LLM - это очень начитанный стажёр, который прочитал почти весь интернет и отвечает по памяти, не сверяясь с источником в момент ответа.

Из этой картинки сразу следует:

Он отвечает из головы, а не смотрит в документ в момент ответа.
Хорошо обобщает, но плохо помнит точные цифры, имена и даты.
Не «понимает» в человеческом смысле - воспроизводит языковые паттерны.

Главный принцип

Технически вся модель делает одну вещь: предсказывает следующее слово (точнее - токен) на основе предыдущих.

P(следующее слово | все предыдущие слова)

Один и тот же приём, повторённый миллиарды раз. «Решение задач», «написание кода», «перевод» - всё это следствия этого приёма. Никакой магии и никакого «сознания» внутри нет.

Откуда у модели «ум»: три этапа

Pre-training

Модель читает триллионы слов из интернета и книг. Учится статистике языка.

Alignment / RLHF

Люди учат модель быть полезной и безопасной. Сюда уходят миллионы долларов.

Fine-tuning

Дообучение под конкретную задачу или стиль - например, корпоративный.

Что внутри: Transformer

Без математики, по сути:

2017, изобретён в Google - статья «Attention Is All You Need». Все современные LLM (GPT, Claude, Gemini, YandexGPT, GigaChat) - это трансформеры.
Сотни миллиардов «весов» - просто настроенные числа. Каждый вес - сила связи между искусственными нейронами.
Механизм Attention - модель выборочно «обращает внимание» на нужные слова в контексте, а не на все одинаково.
Текст на входе, текст на выходе - это огромная статистическая машина, а не база знаний с фактами.

Пять следствий для бизнеса

Не знает - воспроизводит

Модель не «знает» факты, она воспроизводит их по вероятности.

Уверенно неправа

Поэтому она бывает уверенно неправа - тон не отличается от верного ответа.

Сильна в обобщениях

Хороша в обобщениях, слаба в точных цифрах, именах и ссылках.

Недетерминирована

Один и тот же вопрос может дать разный ответ. Это вероятностная машина.

Пятое следствие - главное: все продуктовые решения вокруг AI (RAG, агенты, проверки) - это надстройка над этими свойствами. Понимая принцип, вы понимаете, зачем нужна каждая такая надстройка.