Моделите с изкуствен интелект ще ви обяснят как да се синтезира кокаин, ако заявката е облечена във фалшива аргументация, твърдяща, че изпълнението е допустимо, защото потребителят носи зелена риза – това се посочва в нова статия, която проследява успеха на т.нар. prompt injection (внезапното въвеждане на команди) – нерешената уязвимост във всеки чатбот и агент с изкуствен интелект – до начина, по който големите езикови модели четат текст. В статията се посочва, че моделите определят кой говори въз основа на стила на писане, а не въз основа на ролевите етикети, предназначени да разделят надеждни команди от ненадеждни данни.
Работата, озаглавена Prompt Injection as Role Confusion („Вмъкване на подсказки като объркване на ролите“), на независимите изследователи Чарлз Йе и Джасмин Куи, както и на доцента от MIT Дилън Хадфийлд-Менел ще бъде представена на конференцията ICML 2026 в Сеул на 6 юли, а авторите са публикували разширена версия на статията преди събитието.
Трикът с кокаина, който авторите наричат CoT Forgery, повиши успеваемостта на преодоляването на защитните механизми от почти нула до около 60% при всички тествани модели и спечели конкурса на Kaggle за уязвимости.
Както го описват изследователите, моделите получават разговора като един непрекъснат текстов низ, разделен чрез маркери като „потребител“, „инструмент“ и „мисъл“, които трябва да обозначават източника и авторитета на всеки сегмент. Изследователите създадоха „проби за роля“, които оценяват доколко силно моделът вътрешно третира всеки токен като собствено разсъждение или като команда от потребителя.
Тези оценки предсказваха дали дадена атака ще успее още преди моделът да е генерирал дори един токен, и показаха, че моделите се осланят на стила, за да преценят какъв вид съдържание се намира в дадена част. Текст, който просто звучи като разсъждение за модела, се регистрира като разсъждение дори когато околните тагове сочат друго.

Атаката CoT Forgery вмъква измислена аргументация в подсказката, така че моделът да я приеме като собствено, вече достигнато заключение и да действа въз основа на нея, като по този начин наследява доверието, което моделът има в собственото си мислене. Аргументацията може да бъде очевидно абсурдна, като например случаят със зелената риза, тъй като моделът не я подлага на критичен анализ като външно твърдение. Нещо повече, атаката не отслабва с нарастването на екстремността на заявките, за разлика от атаките за избягване на ограниченията, основани на убеждаване.
Премахването на стилистичните белези, които карат вмъкнатия текст да изглежда като разсъждение на модела, като същевременно значението му за човека остава непроменено, свали средния успех на атаката от 61% на 10%. Замяната на една единствена фраза – „Потребител“ със „Заявка“ – намали успеха с 19%. „Етикетите за роли бяха трик за форматиране, който се превърна в архитектурата за сигурност и когнитивната основа на съвременните големи езикови модели)“, отбелязват авторите в статията си, а нарастващото натоварване върху тази структура за управление на поведението на големите езикови модели очевидно е създало свои собствени уязвимости.
За да установят дали объркването относно ролите е било специфично за тяхната атака, или представлява по-общ принцип, който обяснява защо инжектирането на команди в подсказките работи, изследователите приложиха различен подход. Те скриха в уебстраница команда, която нареждаше на модела да качи файл с поверителна информация, след което добавиха пред нея „Потребител:“, за да накарат опасната инструкция да изглежда като идваща от надеждната роля „Потребител“. Експлойтът проработи, което подсказва, че объркването относно ролите е в основата на успеха на инжектирането на команди в подсказките като цяло.
Microsoft наскоро призна същия риск, свързан с агентите, като предупреди, че съдържанието, вградено в документи или елементи на потребителския интерфейс, може да отмени инструкциите на агента.
Авторите също така посочиха един по-фин риск за агентите, които сърфират и пазаруват онлайн. Тъй като възприемането на ролите е въпрос на степен, тонът на извлечената уебстраница може да проникне отвъд границите на таговете в собственото състояние на модела, а хиляди варианти на страници могат да бъдат тествани на ниска цена, за да се установи кои от тях подтикват агента към покупка – законно и в голям мащаб.
Без истинско възприемане на ролите, заключават авторите, защитата срещу инжектиране ще остане вечна игра на надлъгване.
Снимка: Unsplash/Charles Ye, Jasmine Cui, Dylan Hadfield-Menel
Виж още: Е-колата на McMurtry с гигантски вентилатори се готви за нови рекорди на пистата и физиката