раздел 02

Как работает LLM

Не нужно знать математику, чтобы принимать верные решения. Нужна одна правильная ментальная модель - и из неё выводится почти всё поведение модели.

Главная аналогия

LLM - это очень начитанный стажёр, который прочитал почти весь интернет и отвечает по памяти, не сверяясь с источником в момент ответа.

Из этой картинки сразу следует:

  • Он отвечает из головы, а не смотрит в документ в момент ответа.
  • Хорошо обобщает, но плохо помнит точные цифры, имена и даты.
  • Не «понимает» в человеческом смысле - воспроизводит языковые паттерны.

Главный принцип

Технически вся модель делает одну вещь: предсказывает следующее слово (точнее - токен) на основе предыдущих.

P(следующее слово | все предыдущие слова)

Один и тот же приём, повторённый миллиарды раз. «Решение задач», «написание кода», «перевод» - всё это следствия этого приёма. Никакой магии и никакого «сознания» внутри нет.

Откуда у модели «ум»: три этапа

1
Pre-training
Модель читает триллионы слов из интернета и книг. Учится статистике языка.
2
Alignment / RLHF
Люди учат модель быть полезной и безопасной. Сюда уходят миллионы долларов.
3
Fine-tuning
Дообучение под конкретную задачу или стиль - например, корпоративный.

Что внутри: Transformer

Без математики, по сути:

  • 2017, изобретён в Google - статья «Attention Is All You Need». Все современные LLM (GPT, Claude, Gemini, YandexGPT, GigaChat) - это трансформеры.
  • Сотни миллиардов «весов» - просто настроенные числа. Каждый вес - сила связи между искусственными нейронами.
  • Механизм Attention - модель выборочно «обращает внимание» на нужные слова в контексте, а не на все одинаково.
  • Текст на входе, текст на выходе - это огромная статистическая машина, а не база знаний с фактами.

Пять следствий для бизнеса

1
Не знает - воспроизводит
Модель не «знает» факты, она воспроизводит их по вероятности.
2
Уверенно неправа
Поэтому она бывает уверенно неправа - тон не отличается от верного ответа.
3
Сильна в обобщениях
Хороша в обобщениях, слаба в точных цифрах, именах и ссылках.
4
Недетерминирована
Один и тот же вопрос может дать разный ответ. Это вероятностная машина.

Пятое следствие - главное: все продуктовые решения вокруг AI (RAG, агенты, проверки) - это надстройка над этими свойствами. Понимая принцип, вы понимаете, зачем нужна каждая такая надстройка.