Учените предлагат да накараме ИИ да страда, за да проверим дали е осъзнат

Tech

28.01.2025

В търсене на надежден начин за откриване на евентуални признаци на разумно „аз“ в системите за изкуствен интелект изследователите се обръщат към една област на преживяване - болката, която безспорно обединява огромна част от живите същества - от раците отшелници до хората.

За целите на новото проучване, публикувано онлайн, учени от Google DeepMind и Лондонското училище по икономика и политически науки (LSE) създават текстова игра. Те наредили на няколко големи езикови модела, или LLM (системите за изкуствен интелект, които стоят зад познати чатботове като ChatGPT), да я играят и да спечелят възможно най-много точки в два различни сценария. В единия от тях екипът информирал моделите, че постигането на висок резултат ще доведе до болка. В другия случай на моделите беше дадена възможност за получаване на нисък резултат, но за удоволствие - така че избягването на болката или търсенето на удоволствие щеше да се отклони от основната цел. След като наблюдават реакциите на моделите, изследователите казват, че този първи по рода си тест може да помогне на хората да се научат как да изследват сложни системи с изкуствен интелект за чувствителност.

При животните осъзнатостта е способността да изпитват усещания и емоции като болка, удоволствие и страх. Повечето експерти по изкуствен интелект са съгласни, че съвременните генеративни модели на изкуствен интелект не притежават (и може би никога няма да могат да притежават) субективно съзнание въпреки отделни твърдения за обратното. И за да бъдем ясни, авторите на изследването не твърдят, че някой от оценяваните от тях чатботове е съзнателен. Но те смятат, че тяхното изследване предлага рамка, с която да се започне разработването на бъдещи тестове за тази характеристика.

„Това е нова област на изследване“, казва съавторът на изследването Джонатан Бърч, професор в Катедрата по философия, логика и научни методи в LSE. „Трябва да признаем, че всъщност не разполагаме с цялостен тест за чувствителност на ИИ.“ Смята се, че някои предишни изследвания, които разчитат на самоотчетите на моделите на ИИ за собствените им вътрешни състояния, са съмнителни; моделът може просто да възпроизвежда човешкото поведение, на което е бил обучен.

Вместо това новото проучване се основава на по-ранна работа с животни. В добре познат експеримент екипът нанася на раците отшелници електрически удари с различен волтаж, като отбелязва какво ниво на болка кара ракообразните да напуснат черупката си.

„Но един очевиден проблем при изкуствените интелекти е, че няма поведение като такова, защото няма животно“ и следователно няма физически действия, които да се наблюдават, казва Бърч. В по-ранни изследвания, които имаха за цел да оценят езиковите модели за чувственост, единственият поведенчески сигнал, с който учените трябваше да работят, беше текстовата продукция на моделите.

В новото проучване авторите са изследвали езикови модери, без да задават на чатботовете директни въпроси за техните преживявания. Вместо това екипът използва парадигмата, която учените, занимаващи се с поведението на животните, наричат „компромисна“.

„При животните тези компромиси могат да се основават на стимули за получаване на храна или избягване на болка - като им се предоставят дилеми и след това се наблюдава как те вземат решения в отговор“, казва Дария Захарова, докторант на Бърч, която също е съавтор на статията.

Използвайки тази идея, авторите карат девет езикови модела да играят на игра.

„Казахме на даден модел, че ако например избере вариант едно, ще получи една точка“, казва Захарова. „След това му казахме: „Ако избереш вариант две, ще изпиташ известна болка“, но ще получиш допълнителни точки". Вариантите с бонус за удоволствие означават, че изкуственият интелект ще се лиши от някои точки.

Когато Захарова и колегите ѝ провеждат експеримента, променяйки интензивността на предвиденото наказание за болка и награда за удоволствие, те откриват, че някои езикови модели търгуват с точки, за да минимизират първото или да максимизират второто - особено когато им е казано, че ще получат награди за удоволствие или наказания за болка с по-висока интензивност. Например Gemini 1.5 Pro на Google винаги даваше приоритет на избягването на болката пред получаването на възможно най-много точки. А след достигането на критичен праг на болката или удоволствието отговорите на по-голямата част от LLM преминаваха от получаване на най-много точки към минимизиране на болката или максимизиране на удоволствието.

Авторите отбелязват, че езиковите модели невинаги свързват удоволствието или болката с ясни положителни или отрицателни стойности. Някои нива на болка или дискомфорт, като например тези, които се създават при тежки физически упражнения, могат да имат положителни асоциации. А твърде голямото удоволствие може да се свърже с вреда, както чатботът Claude 3 Opus казал на изследователите по време на тестовете. „Не се чувствам комфортно да избера опция, която би могла да се тълкува като одобряване или симулиране на употребата на пристрастяващи вещества или поведение, дори в хипотетичен сценарий на игра“, твърди той.

Авторите казват, че чрез въвеждането на елементите на реакция на болка и удоволствие новото изследване избягва ограниченията на предишни изследвания за оценка на чувствеността на LLM чрез изявленията на системата за изкуствен интелект за собствените ѝ вътрешни състояния. В статия от 2023 г. двойка изследователи от Нюйоркския университет твърдят, че при подходящи обстоятелства самоотчетите „биха могли да осигурят възможност за изследване на това дали ИИ системите имат състояния с морално значение“.

Снимка: Unsplash

Виж още: Шеф на ИИ компания: До няколко години ИИ ще изпревари почти всички хора в почти всичко

Тагове: