раздел 01
Прямые и непрямые инъекции
Инъекции делятся на два вида по тому, кто и как подсовывает агенту вредную инструкцию.
Прямая инъекция (direct)
Вредную инструкцию вводит сам пользователь или злоумышленник прямо в чат с агентом. Например, кто-то получил доступ к чату и пишет агенту команду в открытую. Это заметнее: текст виден тому, кто следит за диалогом.
Непрямая инъекция (indirect)
Инструкция спрятана во внешних данных, которые агент подтянул сам: страница, файл, письмо, вывод инструмента. Вы просите агента «прочитай эту статью и сделай выжимку», а внутри статьи невидимым для вас образом сидит команда. Вы её не писали и часто даже не видите.
Непрямая инъекция опаснее прямой: вы не вводили эту команду и не видите её. Агент сам принёс заражённые данные, выполняя вашу же безобидную просьбу.
По каким каналам приходит
Заражённым может оказаться любой источник, который агент читает. Концептуально вредная инструкция выглядит как обычный фрагмент текста среди полезного содержимого - вы не увидите подвоха на глаз.