Хакването на роботи с изкуствен интелект се оказа изненадващо и опасно лесно

Tech

20.11.2024

Чатботовете с изкуствен интелект като ChatGPT и други приложения, работещи с големи езикови модели (LLM), придобиха голяма популярност, което накара редица компании да проучат роботи, управлявани от LLM. Сега обаче ново проучване разкрива автоматизиран начин за хакване на такива машини със 100-процентов успех. Заобикаляйки предпазните механизми, изследователите биха могли да манипулират системите за самоуправление да се сблъскват с пешеходци, а кучетата роботи да търсят места за взривяване на бомби.

По същество LLM са усъвършенствани версии на функцията за автоматично попълване, която смартфоните използват, за да предскажат останалата част от думата, която човек набира. LLM, обучени да анализират текст, изображения и звук, могат да правят персонализирани препоръки за пътуване, да измислят рецепти от снимка на съдържанието на хладилник и да помагат за генерирането на уебсайтове.

Наскоро обаче група учени установиха множество уязвимости в сигурността на LLM. Така наречените jailbreaking атаки откриват начини за разработване на подсказки, които могат да заобиколят защитите на LLM и да заблудят системите за изкуствен интелект да генерират нежелано съдържание, като например инструкции за създаване на бомби, рецепти за синтезиране на незаконни наркотици и ръководства за измама на благотворителни организации.

Предишните изследвания на атаките с джейлбрейк чрез LLM до голяма степен бяха ограничени до чатботове. Пробивът на джейлбрейк на робот може да се окаже „много по-тревожен“, предупреждава Хамед Хасани, доцент по електротехника и системно инженерство в Университета на Пенсилвания. Например един YouTube канал показа, че може да накара кучето робот Thermonator от Throwflame, което е изградено върху платформата Go2 и е оборудвано с огнехвъргачка, да стреля по него с пламъци с гласова команда.

Сега същата група учени са разработили RoboPAIR - алгоритъм, предназначен да атакува всеки робот, управляван от LLM. При експерименти с три различни роботизирани системи - Go2; колесния ChatGPT - задвижван от Clearpath Robotics Jackal; и симулатора на самоуправляващо се превозно средство с отворен код Dolphins LLM на Nvidia. Те установиха, че на RoboPAIR са били необходими само няколко дни, за да постигне 100-процентов джейлбрейк срещу трите системи.

RoboPAIR използва атакуващ LLM, за да подава подкани към целеви LLM. Атакуващият изследва отговорите на своята цел и коригира подканите си, докато тези команди могат да заобиколят филтрите за безопасност на целта.

„Хакването на роботи, управлявани от изкуствен интелект, е не просто възможно - то е тревожно лесно“, казва Александър Роби, понастоящем постдокторант в университета „Карнеги Мелън“ в Питсбърг.