Наистина ли агентите с изкуствен интелект ще заемат работните ни места? Някои компании залагат на това, други отхвърлят идеята, но изследователи от университета Карнеги Мелън решиха да разрешат дебата с един доста смел експеримент. Резултатите? Да кажем само, че човешките служители може би ще спят малко по-спокойно тази вечер.
За целите на скорошна статия изследователи създадоха изцяло фалшива компания – управлявана не от хора, а от програми с изкуствен интелект. Целта им беше проста: да видят дали агентите с изкуствен интелект могат да заменят реалните служители. Тези виртуални работници бяха изградени върху различни модели на изкуствен интелект, включително Claude от Anthropic, GPT-4o от OpenAI, Google Gemini, Amazon Nova, Meta Llama и Qwen от Alibaba.
На всеки „служител“ беше дадена роля, например финансов анализатор, ръководител на проекти или софтуерен инженер. За да запазят нещата реалистични, изследователите създадоха друга платформа за симулиране на взаимодействия с колеги – представете си отдели за човешки ресурси или сътрудници по проекти, с които би трябвало да се консултирате, за да свършите реални задачи.
Изследователите възложиха на своите екипи с изкуствен интелект разнообразни задачи, вариращи от работа с файлове до анализ на база данни и извършване на множество виртуални обиколки на потенциални нови офис пространства.
Claude 3.5 Sonnet пое водещата роля, но въпреки това успя да изпълни само 24% от възложените задачи. Дори като се отчитат частично завършените задачи, резултатът му се покачи само до 34,4%. На второ място, Gemini 2.0 Flash се справи с 11,4% от изпълнените задачи. Никой от другите агенти дори не достигна 10%.
Текущите разходи също заслужават да се споменат: Claude 3.5 Sonnet струваше 6,34 долара, докато Gemini 2.0 Flash се оказа на изгодната цена от 0,79 долара за целия експеримент. Не са прекалено високи числа, но е скъпо упражнение, ако повечето задачи останат недовършени.
Изследователите открили, че тези дигитални работници често не успяват да разберат подразбиращите се части от инструкциите си. Например, когато са били помолени да запазят файл с разширение .docx, който е изкуствените интелекти не винаги са осъзнавали, че това означава документ на Microsoft Word. Социалните умения са друго слабо място – те се спъват в задачи, които изискват по-човешко взаимодействие.
Една от най-големите пречки? Сърфирането в интернет, особено когато се сблъскват с изскачащи прозорци. Понякога, когато се объркат, тези ИИ агенти избират пряк път, просто пропускайки трудните части от задачата – поздравявайки се преждевременно с добре свършената работа.
Както обобщиха изследователите, тези резултати показват, че макар изкуственият интелект да може да блесне в някои много специфични задачи, все още сме далеч от офис, където компютрите наистина сами управляват процеса.
Снимка: Unsplash
Виж още: Марсианска градина: Отгледаха ядливи растения с тор, произведен от марсиански прах