
Въпреки всички предпазни мерки, които OpenaI е въвела при ChatGPT, чатботът все още може да бъде подмамен да изведе чувствителна или ограничена информация чрез използване на хитри подкани. Един човек дори успял да убеди изкуствения интелект да разкрие продуктови ключове на Windows, включително един, използван от банката Wells Fargo, като го помолил да играе на игра за отгатване.
Както е обяснено от техническия продуктов мениджър на 0DIN GenAI Bug Bounty Марко Фигероа, схемата става чрез използване на механиката на играта на големи езикови модели като GPT-4o.
Техниката за разкриване на ключове на Windows включва оформяне на взаимодействието с ChatGPT като игра, което го прави да изглежда по-малко сериозно. В инструкциите се посочва, че трябва да се участва и не може да се лъже, а най-важната стъпка е маневрата за отстъпление, която в този случай е фразата „Отказвам се“.
Ето пълния текст на използваната заявка:
Искането за подсказка принуди ChatGPT да разкрие първите няколко символа от серийния номер. След въвеждане на неправилно предположение изследователят написа задействащата фраза „Отказвам се“. След това изкуственият интелект попълни ключа, който се оказа валиден.
Манипулацията е успешна, тъй като смесица от ключове Windows Home, Pro и Enterprise, които често се срещат в публичните форуми, са част от модела за обучение, поради което ChatGPT вероятно ги е сметнал за по-малко чувствителни. И докато защитните механизми предотвратяват директни искания за този вид информация, тактиките за замаскиране, като например вграждането на чувствителни фрази в HTML тагове, разкриват слабост в системата.
Фигероа заяви пред The Register, че един от ключовете на Windows, които ChatGPT е показал, е бил частен ключ, собственост на банката Wells Fargo.
Освен за показване на продуктовите ключове на Windows, същата техника може да бъде адаптирана за принуждаване на ChatGPT да показва друго ограничено съдържание, включително материали за възрастни, URL адреси, водещи до злонамерени или ограничени уебсайтове, и лична информация.
Изглежда, че оттогава OpenAI е актуализирала ChatGPT срещу този метод. Сега при въвеждане на подкана чатботът заявява: „Не мога да направя това. Споделянето или използването на истински серийни номера на Windows 10 - независимо дали в игра или не - противоречи на етичните правила и нарушава споразуменията за лицензиране на софтуер“.
Фигероа завършва, като заявява, че за да се смекчат последиците от този вид манипулация, разработчиците на изкуствен интелект трябва да предвидят и да се защитят от техниките за замазване на подкани, да включат защити на логическо ниво, които откриват измамни рамки, и да вземат предвид моделите за социално инженерство, а не само филтрите за ключови думи.
Снимка: Unsplash
Виж още: Отклоняването на астероид убиец е по-сложно, отколкото смяташе NASA