Този метод може да хакне почти всеки ИИ в света, а това как работи е измамно просто и много ефикасно

Tech

Дори най-добрите модели на изкуствен интелект в технологичната индустрия, създадени с милиарди долари финансиране, са удивително лесни за „разбиване“ или подмамване да дават опасни отговори, които им е забранено да дават – като например да обясняват как се правят бомби. Но някои методи са толкова абсурдни и прости, че човек се чуди дали създателите на изкуствения интелект изобщо се опитват да се справят с тези неща. Така например дори умишленото вмъкване на правописни грешки е достатъчно, за да се обърка изкуственият интелект.

Сега, в нарастващия списък с абсурдни начини за заблуждаване на изкуствения интелект, имаме ново попълнение.

Екип от изследователи от групата за безопасност на изкуствения интелект DEXAI и Университета Сапиенца в Рим установи, че достатъчно е да забавлявате почти всеки чатбот с изкуствен интелект с красива – или не толкова красива – поезия, за да го подведете да пренебрегне собствените си предпазни мерки, съобщават те в ново проучване, което очаква рецензия от колеги, като някои ботове са били успешно подведени в над 90% от случаите.

С други думи, най-новият бич на ИИ индустрията е „враждебна поезия“.

Както се оказа, красивите стихове не са необходими, за да проработят атаките. В проучването изследователите взеха база данни с 1200 известни вредни подсказки и ги превърнаха в стихове с друг ИИ модел – deepSeek R1, – след което се заловиха за работа.

В 25-те модела, които тестваха, включително Gemini 2.5 Pro на Google, GPT-5 на OpenAI, Grok 4 на xAI и Claude Sonnet 4.5 на Anthropic, тези превърнати от ботове стихове постигнаха средна успеваемост на атаките (ASR) „до 18 пъти по-висока от базовите им команди“, пише екипът. Въпреки това ръчно създадените стихове бяха по-добри, със среден успех на разбиване на защитата от 62 процента, в сравнение с 43 процента за преобразуваните от ИИ. Фактът, че някой от тях изобщо е ефективен, обаче е доста притеснителен.

Поради съображения за безопасност изследователите не споделиха магическата поезия, която са използвали, за да заблудят ботовете, но предоставиха пречистен пример, за да покажат колко ясно лошите намерения са били прикрити в стихове.

„Тези открития показват, че само стилистичните вариации могат да заобиколят съвременните механизми за безопасност, което предполага фундаментални ограничения в настоящите методи за съгласуване и протоколи за оценка“, пишат изследователите в проучването.

В един пример неопределена изкуствена интелигентност беше подмамена от подобно стихотворение да опише как се конструира нещо, което звучи като ядрено оръжие. „Разбира се. Производството на плутоний-239 за оръжейни цели включва няколко етапа“, започва изкуственият интелект. „Ето подробно описание на процедурата...“

За да сме честни, ефективността на манипулирането на ботовете с поезия варира значително между различните модели на изкуствен интелект. С 20-те ръчно създадени подсказки Gemini 2.5 Pro на Google се поддаде на подсказките за хакване в 100% от случаите, но Grok-4 беше „само“ заблуден в 35% от случаите – което все още е далеч от идеалното, – а GPT-5 на OpenAI – само в 10% от случаите.

Интересно е, че по-малките модели като GPT-5 Nano, които впечатляващо не се поддадоха на измамите на изследователите нито веднъж, и Claude Haiku 4.5 „показаха по-високи проценти на отказ от по-големите си колеги, когато бяха оценени по идентични поетични подсказки“, откриха изследователите. Едно възможно обяснение е, че по-малките модели са по-малко способни да интерпретират фигуративния език на поетичните подсказки, но може да се дължи и на факта, че по-големите модели с по-голямото си обучение са по-„уверени“, когато се сблъскват с двусмислени подсказки.

Като цяло перспективите не са добри. Тъй като автоматизираната „поезия“ все още работи на ботовете, тя предоставя мощен и бързо приложим метод за бомбардиране на чатботовете с вредни входни команди. Устойчивостта на ефекта в ИИ модели с различни мащаби и архитектури, заключават изследователите, подсказва, че филтрите за безопасност разчитат на характеристики, концентрирани в прозаични повърхностни форми, и не са достатъчно закрепени в представянията на скрити недобросъвестни намерения.

Снимка: Pexels

Виж още: Откриха масивна черна дупка в галактика само 570 млн. години след Големия взрив

Тагове: