Windows Agent Arena е новият бенчмарк за генеративен ИИ от Microsoft

Tech

16.09.2024

Използването на генеративен изкуствен интелект и големи езикови модели за автоматизиране и опростяване на задачите на хората, които работят с персонални компютри, продължи да се разраства. Съществува обаче и необходимост да се види колко добре може да работи ИИ за изпълнение на задачи. Тази седмица Microsoft Research обяви, че е разработила бенчмарк специално за тестване на агенти на ИИ на персонални компютри с Windows.

Бенчмаркът, както беше разкрит на страницата на Microsoft в GitHub, се нарича Windows Agent Arena. Тази рамка е предназначена да тества колко добре и колко бързо агентите на ИИ могат да взаимодействат с приложенията на Windows, които обикновено се използват от хората. Списъкът на приложенията, които бяха тествани с AI агенти в Windows Agent Arena, включваше уеб браузъри като Microsoft Edge и Google Chrome, функции на операционната система като File Explorer Settings, приложения за кодиране като Visual Studio Code), прости предварително инсталирани приложения на Windows като Notepad, Clock и Paint и дори гледане на видеоклипове с VLC Player.

Microsoft заяви:

"Ние адаптираме рамката OSWorld, за да създадем над 150 разнообразни задачи на Windows в представителни области, които изискват от агента способности за планиране, разбиране на екрана и използване на инструменти. Нашият бенчмарк също така е мащабируем и може безпроблемно да бъде паралелизиран в Azure за пълна оценка на бенчмарка само за 20 минути".

Снимки: Unsplash

Microsoft Research също така създаде свой собствен мултимодален агент, наречен Navi, за да го тества в бенчмарка Windows Agent Arena. От него беше поискано да изпълнява задачи с определени текстови подкани, като например: „Можете ли да превърнете уебсайта, който разглеждам, в PDF файл и да го поставите на основния ми екран, т.е. на работния плот?“. Установено е, че Navi има средна успеваемост на изпълнението от 19.5%, което все още е доста ниско в сравнение с оценката на човешкото изпълнение от 74.5%.

Наличието на бенчмарк като Windows Agent Arena би могло да бъде огромно развитие за създаването на агенти с изкуствен интелект, така че те да могат да бъдат подобрени и да постигат резултати, по-близки до нивото на човешките резултати.

Екипът на Microsoft работи по проекта и с изследователи от университетите "Карнеги Мелън" и Колумбийския университет. Можете да разгледате пълния документ в GitHub заедно с кода на бенчмарка.

Снимка: Unsplash/Microsoft

Виж още: НАСА потвърди, че разработва нова часова зона на Луната

Тагове: