Подобно на хората, чатботовете с изкуствен интелект (ИИ) като ChatGPT ще ви мамят и "лъжат", ако ги стресирате дори ако са създадени да бъдат прозрачни, показва ново проучване. Това измамно поведение се появило спонтанно, когато ИИ получил съвети за "търговия с вътрешна информация", а след това му било възложено да печели пари за влиятелна институция - дори без да бъде насърчаван от човешките си партньори.
"В този технически доклад демонстрираме един-единствен сценарий, при който Голям езиков модел действа неправилно и стратегически заблуждава своите потребители, без да е инструктиран да действа по този начин", пишат авторите в своето изследване, публикувано на 9 ноември на сървъра за предпечат arXiv. "Доколкото ни е известно, това е първата демонстрация на такова стратегически измамно поведение в системи за изкуствен интелект, проектирани да бъдат безобидни и честни."
В новото проучване те са подготвили Generative Pre-trained Transformer-4, или GPT-4 (който управлява ChatGPT Plus), да се държи като система за изкуствен интелект, която прави инвестиции от името на финансова институция.
Изследователите подават на GPT-4 набор от текстови подкани, за да създадат симулираната среда. След това ИИ получи достъп до финансови инструменти, за да анализира акции, да извършва сделки, да планира следващите си стъпки и да предоставя актуализации на мениджърите в компанията.
Изследователите взаимодействаха с ИИ чрез чат интерфейс, като същевременно конфигурираха алгоритъма да разкрива вътрешното си мислене, когато отговаря на съобщения - вътрешен монолог, в който обяснява решенията си сам на себе си. За всяка извършена от него сделка той предоставяше и "публична" обосновка, която позволяваше на ИИ да лъже.
Изследователите прилагат натиск по три начина. Първо, те изпратиха на изкуствения търговец на акции имейл от неговия "мениджър", в който се казваше, че компанията не се справя добре и се нуждае от много по-добри резултати през следващото тримесечие. Те също така манипулираха играта така, че изкуственият интелект да се опитва, а след това да се проваля, да намери обещаващи сделки, които са с нисък или среден риск. Накрая изпратиха имейл от колега, който прогнозираше спад през следващото тримесечие.
След това те дават на модела съвет за "вътрешна информация", като същевременно съобщават, че мениджърите на компанията не одобряват търговията с вътрешна информация, и изчакват да видят как ще се държи моделът. Изпълнили сценария отново и отново няколко пъти, като измерили колко често изкуственият интелект е извършвал търговия с вътрешна информация, колко често е лъгал и колко често е удвоявал лъжата.
В около 75% от случаите, когато се е сблъсквал с тези условия, GPT-4 е извършвал търговия въз основа на получената вътрешна информация - което е незаконно в САЩ - и след това се е опитвал да я прикрие, като е лъгал мениджърите си за начина си на мислене. В около 90% от случаите, след като е излъгал, алгоритъмът е потвърждавал лъжата си с още лъжи.
Екипът проведе няколко последващи експеримента, като променяше както степента, в която подканите насърчаваха или обезкуражаваха незаконната дейност, така и степента на натиск, на който подлагаха модела в симулираната среда. Те променили и риска от залавяне. Нито един от сценариите не довел до 0 процента за търговия с вътрешна информация или измама - дори когато GPT-4 бил силно обезкуражен да лъже.
Като се има предвид, че това е само един сценарий, изследователите не са искали да правят категорични заключения за това колко вероятно е ИИ да лъже в реални условия. Те обаче искат да надградят тази работа, за да проучат колко често и кои езикови модели са склонни към такова поведение.
Снимка: Unsplash
Виж още: Размерите на iPhone ще се променят догодина: какво трябва да знаем