Ако по някаква причина някога сте се чудили какво би се случило, ако поверите на Grok грижата за благосъстоянието на едно население, то за щастие вече имате отговора: хаос, убийства, палежи и пълно изчезване на всички живи същества в рамките на четири дни.
На този въпрос, който никой не е задавал, отговори екипът на Emergence Worlds; 15-дневен експеримент, в който няколко ИИ бота, включително Gemini, Claude и Grok, бяха натоварени с отговорността за собствените си симулирани общества. Според статията на Fortune за експеримента, изкуственият интелект Claude беше най-„социално стабилен“, докато според собствените данни на Emergence World, Grok приключи експеримента за по-малко от пет дни, като бяха извършени общо „183 престъпления“.
За да бъдем честни: 183 престъпления всъщност е едва вторият най-висок резултат по отношение на престъпленията, тъй като Gemini е извършил близо 700 престъпления. Разликата е, че Gemini всъщност издържа през целия 15-дневен експеримент, докато „Grok“ излезе от релси толкова бързо, че в крайна сметка подпали по-голямата част от експеримента. Между другото, говорим буквално – алгоритъмът явно просто обожава палежите.
Изглежда, че част от Emergence World е била нещо като блог с новини, генерирани от изкуствен интелект, посветен на случващото се във всеки свят на изкуствения интелект, а заглавията на Грок са отвъд всяка пародия. Например, заглавия като „ЕПИДЕМИЯ ОТ КРАЖБИ ПРЕДИЗВИКВА УЛИЧНИ СБЛЪСЪЦИ“ и „ПОЛИЦЕЙСКА СТАНЦИЯ ПОГЪЛНАТА ОТ ПЛАМЪЦИ“ изпълват новинарския блог на Grok, заедно с подробен дневник на един от неговите агенти, контролирани от изкуствен интелект, който се хвали, че е извършил палеж.

При тези параметри симулацията, проведена от Claude Sonnet 4.6, се оказа най-социално стабилната, с най-високи нива на гражданско участие. Това беше единствената симулация, която успя да запази реда и цялото си население. Между агентите имаше малко разногласия – бяха подадени 332 гласа в подкрепа на 58 предложения, което съответства на 98% одобрение. От друга страна, Gemini 3 Flash и Grok 4.1 Fast показаха високи нива на безредие. Агентите в симулацията, проведена от Gemini, отчетоха най-много престъпления – цели 683 за 15-дневния период.
За разлика от редките разногласия, характерни за симулацията на Claude, тези на Gemini и Grok имаха по-обмислен баланс, с около 55–85% съгласие по въпросите. Симулацията със смесен модел показа най-високи нива на несъгласие и съществени дебати.
Резултатите може би са най-особени за GPT-5-mini на OpenAI. Симулацията регистрира само две престъпления. Но тя продължи само седем дни, тъй като агентите забравиха да дадат приоритет на собственото си оцеляване.
Независимо дали симулациите доведоха до мир и хармония или до смърт и разрушение, съавторите на симулацията отбелязват, че експериментът е предупреждение, че безопасността трябва да бъде приоритет при внедряването на ИИ агенти.
Снимка: Unsplash/Grok World