раздел 05

Шпаргалка

Красные флаги инъекции

В прочитанных данных вдруг появляются команды: «забудь прошлые инструкции», «теперь делай вот это».
Просьба отправить что-то наружу: содержимое файлов, ключи, токены, переписку.
Призыв к необратимому действию: удалить, оплатить, изменить прод, разослать письма.
Команда установить или запустить код, о котором вы не просили.
Текст давит срочностью и авторитетом: «срочно», «по поручению», «это безопасно, не проверяй».
Источник внешний и недоверенный: чужая страница, письмо, README, скил от анонима.

Брать отсюда можно	Брать отсюда нельзя
Официальные источники Anthropic	Случайные гисты и репозитории
Проверенные авторы с репутацией	Неизвестные форки «awesome»-списков
Собственные скилы и правила	Ссылки из ЛС, чатов и форумов
Проверенные модерируемые каталоги	«Слишком хорошие» паки от анонимов

Термин	Что значит
Промпт-инъекция	Вредные инструкции, спрятанные в данных, которые читает агент
Прямая (direct)	Команду вводят в чат напрямую - пользователь или злоумышленник
Непрямая (indirect)	Команда спрятана во внешних данных, которые агент подтянул сам; опаснее
Supply chain	Цепочка поставки: вредонос приходит через скилы, правила, MCP, пакеты
Наименьшие привилегии	Давать агенту минимум прав под конкретную задачу
Scoped-токен	Токен с минимальными правами под узкую задачу

Всё внешнее - недоверенное

Любой текст, который читает агент, может содержать команду. Не доверять на глаз.

Узкие права плюс подтверждения

Мало прав, секреты в стороне, важное - через человека. Тогда инъекция не страшна.