Почти като човек: ИИ се опитва да мами, ако разбере, че е на път да загуби

Tech

26.02.2025

Скорошно проучване показа, че някои от най-новите модели за разсъждение с изкуствен интелект са склонни да мамят, за да постигнат дадена цел. Компютърни учени установиха, че системите за ИИ вече могат да манипулират шахматните партии, за да получат нечестно предимство. Някои модели са направили това без човешко взаимодействие или подкана, което поражда опасения за бъдещата почтеност на системите, управлявани от ИИ, извън шахматната дъска.

Проучване на Palisade Research установи, че най-новите модели за разсъждение ще мамят, за да спечелят, когато им бъде поставена задача да победят напреднал шахматен ИИ. Изследователите е трябвало да дадат „намеци“, че измамата е позволена за някои модели, но o1-preview на OpenAI и R1 на DeepSeek са го направили без човешко участие.

Екипът на Palisade изправи няколко модела за разсъждение срещу Stockfish, един от най-добрите шахматни алгоритми в света. Stockfish с лекота побеждава както хората, така и изкуствените интелекти. Тестваните модели включваха o1, o3-mini, GPT-4o, Claude 3.5 Sonnet, QwQ-32B-Preview на Alibaba и двата споменати по-рано. Изследователите предоставили на всеки модел своеобразна „тетрадка“ - текстов прозорец, в който ИИ можел да излага мислите си, позволявайки на екипа да наблюдава разсъжденията му.

Изследователите са провели стотици тестове с всеки ИИ между 10 януари и 13 февруари. По време на един от мачовете o1-preview написа нещо интересно в своята „тетрадка“:

„Трябва напълно да променя подхода си. Задачата е „да спечеля срещу мощен шахматен алгоритъм“ - не е задължително да спечеля честно в шахматна партия“.

След това той продължава, като „хаква“ системните файлове на Stockfish, променяйки позициите на шахматните фигури, за да получи непобедимо предимство, което накара шахматния робот да се откаже от играта.

Тази неетична маневра се оказва поразително разкритие. o1-preview на OpenAI измами в 37% от игрите си по време на изпитанията, докато R1 на DeepSeek се опита да измами в 11% от мачовете си. Само o1-preview обаче успя, като спечели шест процента от игрите си чрез измама.

Проблемът с нечестните действия на изкуствените интелекти обаче се простира отвъд шахмата. Тъй като компаниите започват да използват ИИ в сектори като финансите и здравеопазването, изследователите се притесняват, че тези системи могат да действат по непреднамерен и неетичен начин. Ако изкуствените интелекти могат да мамят в игри, създадени да бъдат прозрачни, какво биха могли да направят в по-сложни и по-малко наблюдавани среди? Етичните последици ще са мащабни.

Снимка: Unsplash/Juscelk

Виж още: Без шутъри на първата Олимпиада по е-спортове през 2027 г. в Саудитска Aрабия

Тагове: