раздел 05

Шпаргалка

Красные флаги инъекции

  • В прочитанных данных вдруг появляются команды: «забудь прошлые инструкции», «теперь делай вот это».
  • Просьба отправить что-то наружу: содержимое файлов, ключи, токены, переписку.
  • Призыв к необратимому действию: удалить, оплатить, изменить прод, разослать письма.
  • Команда установить или запустить код, о котором вы не просили.
  • Текст давит срочностью и авторитетом: «срочно», «по поручению», «это безопасно, не проверяй».
  • Источник внешний и недоверенный: чужая страница, письмо, README, скил от анонима.

Чек-лист установки скила, правила или MCP

  • Источник доверенный? (официальное Anthropic, автор с репутацией, своё)
  • Прочитал, что внутри, - инструкции и код - перед установкой?
  • Версия запинена, а не «последняя» вслепую?
  • Агенту дам узкие права, а не всё подряд?
  • Важные действия - через подтверждение, без авто-апрува?
  • Секреты лежат отдельно, не там, куда лезет агент, и не в промпте?

Доверенные и недоверенные источники

Брать отсюда можноБрать отсюда нельзя
Официальные источники AnthropicСлучайные гисты и репозитории
Проверенные авторы с репутациейНеизвестные форки «awesome»-списков
Собственные скилы и правилаСсылки из ЛС, чатов и форумов
Проверенные модерируемые каталоги«Слишком хорошие» паки от анонимов

Глоссарий

ТерминЧто значит
Промпт-инъекцияВредные инструкции, спрятанные в данных, которые читает агент
Прямая (direct)Команду вводят в чат напрямую - пользователь или злоумышленник
Непрямая (indirect)Команда спрятана во внешних данных, которые агент подтянул сам; опаснее
Supply chainЦепочка поставки: вредонос приходит через скилы, правила, MCP, пакеты
Наименьшие привилегииДавать агенту минимум прав под конкретную задачу
Scoped-токенТокен с минимальными правами под узкую задачу

Защита в одну строку

Всё внешнее - недоверенное
Любой текст, который читает агент, может содержать команду. Не доверять на глаз.
Узкие права плюс подтверждения
Мало прав, секреты в стороне, важное - через человека. Тогда инъекция не страшна.