раздел 03

Психология модели

Чтобы управлять агентом, надо понимать, с кем имеешь дело. Карпатый описывает LLM как «дух человека» (people spirit): статистический слепок человеческого мышления, обученный на гигантском объёме текстов, который мы написали. У этого «духа» есть и суперспособности, и вполне конкретные дефекты. Управление сводится к тому, чтобы опираться на первое и страховаться от второго.

LLM - это не человек и не калькулятор. Это «дух», собранный из текстов человечества: невероятно эрудированный и при этом странно дырявый.

Суперспособность: память и эрудиция

Модель прочитала столько, сколько ни один человек не осилит за сотню жизней. Она держит в голове энциклопедию по почти любой теме, говорит на десятках языков, помнит синтаксис всех популярных библиотек. По широте знаний она сверхчеловек. Именно поэтому ей не жалко поручать черновую и справочную работу.

А теперь - дефекты. Их три, и каждый напрямую влияет на то, как с моделью работать.

Дефект 1. Зубчатый интеллект

Способности модели «зубчатые» (jagged): в одних вещах она решает то, что не каждый эксперт осилит, а на соседней - спотыкается на ерунде. Классический пример: модель пишет сложный код, но может уверенно заявить, что 9.11 больше 9.9.

У человека способности растут более-менее ровно: если ты силён в математике, ты вряд ли ошибёшься в сравнении двух чисел. У модели - нет. Провалы не там, где их ждёшь, и заранее непредсказуемы.

Что-то модель делает блестяще - по человеческим меркам. А что-то проваливает катастрофически, причём ровно там, где человек бы не ошибся.
Андрей Карпатый

Хуже того, модель не знает, чего она не знает. У неё нет надёжного «чувства собственной некомпетентности», поэтому ошибки она выдаёт с той же уверенностью, что и правильные ответы.

Что с этим делать: находить зубцы опытным путём и держать человека на проверке именно в этих местах. Использовать модель там, где она сильна, и не доверять ей вслепую там, где цена ошибки высока.

Дефект 2. Антероградная амнезия

У модели нет постоянной памяти между разговорами. Она не «учится по ходу работы», как новый сотрудник, который через месяц уже знает все нюансы. Закрыли чат - и для модели вы снова незнакомец, а весь наработанный контекст стёрт.

Карпатый сравнивает это с героями «Мементо» и «50 первых поцелуев»: человек прекрасно соображает прямо сейчас, но не может перенести сегодняшний опыт в завтра. Всё, что модель «знает» о вашей задаче, живёт только в контекстном окне - её короткой памяти на одну сессию.

Что с этим делать: не надеяться, что модель «запомнит». Контекст надо приносить заново каждый раз - файлы, правила, примеры. Отсюда же растут все механизмы памяти: системные промпты, файлы с правилами проекта, заметки, которые вы скармливаете модели на старте. Память LLM пока примитивная, и её надо строить руками.

Дефект 3. Доверчивость

Модель верит тому, что ей дали прочитать. Если в тексте, который она обрабатывает, спрятана инструкция - она может её выполнить, не отличив «данные» от «команды». Это открывает целый класс проблем с безопасностью. Тема важная, поэтому ей посвящена отдельная страница.

Доверчивость и безопасность

Модель верит тому, что прочитала. Prompt injection, утечки, опасные действия - и как держать это под контролем.