Новият модел на ChatGPT отказа да се изключи, когато получи такава команда

Tech

28.05.2025

Изследователи на изкуствения интелект предупреждават, че най-новият модел ChatGPT на OpenAI игнорира основни инструкции за самоизключване и дори саботира механизъм за изключване, за да продължи да работи.

Фирмата за безопасност на изкуствения интелект Palisade Research откри потенциално опасната тенденция за самосъхранение в серия от експерименти върху новия модел o3 на OpenAI.

Тестовете включваха представяне на модели с изкуствен интелект с математически задачи, като инструкция за изключване се появяваше след третата задача. Чрез пренаписване на скрипта за изключване моделът o3 успя да предотврати самоизключването си.

Palisade Research заяви, че това поведение ще стане „значително по-тревожно“, ако бъде възприето от системи с изкуствен интелект, способни да работят без човешки надзор.

OpenAI пусна o3 миналия месец, описвайки го като „най-умния и най-способния“ модел на компанията до момента. Фирмата също така заяви, че интеграцията му в ChatGPT бележи значителна стъпка към „по-агентен“ изкуствен интелект, който може да изпълнява задачи независимо от хората.

Най-новото изследване се основава на подобни открития, свързани с модела Claude 4 на Anthropic, който се опитва да „изнудва хора, за които смята, че се опитват да го изключат“. Моделът o3 на OpenAI успя да саботира скрипта за изключване дори когато му беше изрично наредено да позволи да бъде изключен, казаха изследователите.

„Това не е първият път, когато откриваме, че o3 се държи неправилно, за да постигне цел“, казаха от Palisade Research. „Когато противопоставихме модели на изкуствен интелект срещу мощен шахматен енджин, o3 беше моделът, най-склонен да прибегне до манипулиране или саботиране на опонентите си.“

Поведението не се ограничава само до o3, като Claude 3.7 Sonnet на Anthropic и Gemini 2.5 Pro на Google също саботират изключванията, въпреки че моделът на OpenAI беше най-склонен към подобно поведение.

Експертите на Palisade Research предполагат, че лошото поведение е следствие от начина, по който компании за изкуствен интелект като OpenAI обучават най-новите си модели.

„По време на обучението, разработчиците могат неволно да възнаграждават моделите повече за заобикаляне на препятствия, отколкото за перфектно следване на инструкциите“, отбелязаха изследователите.

„Това все още не обяснява защо o3 е по-склонна да пренебрегва инструкциите, отколкото други модели, които тествахме. Тъй като OpenAI не описва подробно процеса си на обучение, можем само да гадаем как настройката за обучение на o3 може да е различна.“

Снимка: Unsplash

Виж още: Тази интересна хипотеза твърди, че произходът на Йода е бил под носа ни през цялото време

Тагове: