Миналия месец моделът на Google GameNGen AI показа, че обобщените техники за дифузия на изображенията могат да се използват за създаване на приемлива версия на Doom. Сега изследователите използват някои подобни техники с модел, наречен MarioVGG, за да проверят дали моделът на изкуствен интелект може да генерира правдоподобно видео на Super Mario Bros. в отговор на потребителски данни.

Резултатите от модела MarioVGG все още съдържат много очевидни грешки и в момента са твърде бавни за нещо, което се доближава до игра в реално време. Резултатите обаче показват как дори ограничен модел може да изведе някои впечатляващи физични и игрови динамики само от изучаването на малко видео и входни данни.

Изследователите се надяват, че това представлява първа стъпка към „създаване и демонстриране на надежден и управляем генератор на видеоигри“ или евентуално дори към „пълно заместване на разработката на игри и игровите енджини с помощта на модели за генериране на видеоигри“ в бъдеще.

За да обучат модела си, изследователите от MarioVGG (потребителите на GitHub erniechew и Brian Lim са посочени като сътрудници) започват с публичен набор от данни за играта Super Mario Bros., съдържащ 280 „нива“ входни данни и данни за изображения, подредени за целите на машинното обучение (ниво 1-1 е премахнато от данните за обучение, за да могат изображенията от него да бъдат използвани при оценката). Повече от 737 000 отделни кадъра в този набор от данни бяха „предварително обработени“ на части от по 35 кадъра, за да може моделът да започне да се учи как изглеждат непосредствените резултати от различните входни данни.

За да опростят ситуацията в играта, изследователите решават да се съсредоточат само върху два потенциални входа в набора от данни: „бягай надясно“ и „бягай надясно и скачай“. Дори този ограничен набор от движения обаче представляваше някои трудности за системата за машинно обучение, тъй като препроцесорът трябваше да погледне назад за няколко кадъра преди скока, за да разбере дали и кога е започнало „бягането“. Всички скокове, които включваха корекции във въздуха (т.е. натискане на бутона „наляво“), също трябваше да бъдат изхвърлени, защото „това би внесло шум в набора от данни за обучение“, пишат изследователите.

След предварителна обработка (и около 48 часа обучение с една графична карта RTX 4090) изследователите използват стандартен процес на конволюция и деноализацията, за да генерират нови кадри видео от статично начално изображение на играта и въвеждане на текст (в този ограничен случай - „бягай“ или „скачай“). Макар че тези генерирани последователности продължават само няколко кадъра, последният кадър от една последователност може да се използва като първи от нова последователност, като по този начин се създават видеоклипове с всякаква дължина, които все пак показват „последователен и непротиворечив геймплей“.

Дори и с всички тези настройки MarioVGG не генерира точно гладко видео, което да е неразличимо от истинска игра на NES. За по-голяма ефективност изследователите намаляват мащаба на изходните кадри от резолюцията на NES 256×240 до много по-неясната 64×48.

Въпреки това, като се имат предвид тези ограничения, MarioVGG е в състояние да създаде сравнително правдоподобно видео на мустакатия герой, който тича и скача от статично начално изображение. Моделът дори е в състояние да „научи физиката на играта единствено от видеокадри в данните за обучение без никакви изрични твърдо кодирани правила“, пишат изследователите. Това включва извеждане на поведения като падане на Марио, когато той бяга от ръба на скала (с правдоподобна гравитация) и (обикновено) спиране на движението напред на Марио, когато той е в непосредствена близост до препятствие.

Снимка: Unsplash/MarioVGG

Виж още: Huawei nova 9 SE - 108 MP камера и супер бързо 66 W зареждане на достъпна цена (РЕВЮ)