Трима студенти от Университета на Британска Колумбия изпробваха знанията си, като създадоха маса за въздушен хокей за един играч, управлявана от изкуствен интелект. Това само по себе си е доста интересно, но най-впечатляващото е, че изкуственият интелект е успял да се научи да играе изцяло в симулационна среда.
Обикновено подобни роботи, управлявани от ИИ, се обучават чрез проби и грешки в „реалния свят“, като се провалят и се учат от хиляди тренировъчни опити. Въпреки че този метод е ефективен, той отнема много време и може да повреди хардуера.
Екипът на университета обаче реши да провери дали може да обучи ИИ в цифровото пространство, да му позволи първо да прави грешки там, а след това да го пусне на истинска маса за въздушен хокей. За тази цел те създадоха високоточен цифров двойник на масата, за да обучат ИИ. След като обучението приключи, те копираха обучения ИИ в истинския робот, за да видят как се представя срещу човешки противник и резултатите бяха изненадващи.
Въпреки липсата на реален опит, управляваният от изкуствен интелект робот, играещ въздушен хокей, успя да се превърне в истинско предизвикателство. И всичко това, така да се каже, още от самото начало без никакви фини настройки.
Интересното тук е, че изкуственият интелект обикновено изпитва затруднения при усвояването на задачи като въздушния хокей. Причината е, че шайбата, в частност, се движи много бързо, може да се движи непредсказуемо и се влияе силно от фините промени, предизвикани от взаимодействията с ракетите и стените.
Всеки робот-играч трябва да отчита и закъсненията, дължащи се на двигателите, камерите, колебанията в напрежението, механичните вибрации и несъвършеното проследяване на шайбата. По този начин дори и най-малките грешки могат да доведат до разигравания, които да костват загубата на мача.
За тази цел екипът умишлено проектира средата за обучение на ИИ така, че да бъде несъвършена. Това е отклонение от повечето сценарии за обучение, които могат да бъдат „твърде съвършени“, но реалният свят явно не е такъв.
Затова екипът взе предвид фактори като неравни релси, изкривени маси, неравномерни отскоци, спадове в електрозахранването и латентност на камерите. Наречено „рандомизация на домейна“, това позволи на ИИ да се научи да очаква неочакваното и да реагира по най-добрия възможен начин, точно както трябва да прави един човешки играч.

Както обяснява екипът, това учи ИИ да предвижда диапазон от вероятни резултати от отскока на шайбата, а не точен резултат въз основа на зададен алгоритъм. Така ИИ се научи да очаква, че шайбата ще се намира на приблизително определено място в бъдеще, и да реагира съответно.
За да ускори обучението, екипът се отказа от идеята да използва обичайни физически двигатели като Unity и Unreal и вместо това се обърна към нещо, наречено обучение „soft actor critic“. Накратко, това е вид среда за обучение, базирана на Принципа за моркова и тоягата.
В рамките на тази среда изкуственият интелект предприема действия и получава награди или наказания в зависимост от представянето си. Чрез милиони симулирани игри изкуственият интелект става все по-добър в играта и в приспособяването си към хаоса, присъщ на играта.
При прилагането в реалния свят изкуственият интелект получаваше допълнителна помощ чрез специална камера, разположена над игралното поле, и шайба, покрита с ретрорефлективна лента. Това помага на ИИ да „вижда“ шайбата по-ясно при 120 кадъра в секунда.
Освен за въздушния хокей, иновацията на екипа има и някои потенциални приложения за обучение на други автономни системи като дронове, превозни средства, роботи и др. Ако обучението на тези платформи може да бъде ускорено и направено по-реалистично, подобни преходи от симулация към реалност биха могли да бъдат огромно предимство.
Снимка: Unsplash/HudsonNock/YouTube