Новият AI на DeepMind може да побеждава в игри, без да знае предварително правилата им

HiEnd

27.12.2020

През 2016 г. DeepMind на Alphabet излезе с AlphaGo: AI, който непрекъснато побеждава най-добрите човешки играчи на Гo. Една година по-късно дъщерното дружество продължи да усъвършенства работата си, създавайки AlphaGo Zero. Докато предшественикът му се научи да играе Гo, наблюдавайки аматьорски и професионални мачове, AlphaGo Zero овладя древната игра, като просто играеше срещу себе си. След това DeepMind създаде AlphaZero, който може да играе Гo, шах и шоги с един алгоритъм. Това, което обвърза всички тези интелекти, е, че те знаеха правилата на игрите, които трябваше да овладеят, за да навлязат в тяхното обучение.

Най-новият AI на DeepMind, MuZero, не е трябвало да учи правилата за шах и набор от класически игри на Atari, за да ги овладее. Вместо това той ги научи сам и е също толкова способен или по-добър в тях от всеки от предишните алгоритми на DeepMind.

Създаването на алгоритъм, който може да се адаптира към ситуация, в която не знае всички правила, регулиращи симулацията, но все пак може да намери начин да планира успех, е предизвикателство, което AI изследователите се опитват да решат от известно време. DeepMind последователно се опитва да се справи с проблема, използвайки подход, наречен lookahead search. С този метод алгоритъм ще вземе предвид бъдещите състояния, за да планира курс на действие. Най-добрият начин да го разберете е да помислите как бихте играли стратегическа игра като шах или Starcraft II. Преди да направите ход, ще помислите как ще реагира опонентът ви и ще се опитате да планирате съответно. По почти същия начин AI, който използва метода lookahead, ще се опита да планира няколко хода предварително. Дори и с толкова относително ясна игра като шаха е невъзможно да се разгледат всички възможни бъдещи състояния, така че вместо това AI ще даде приоритет на тези, които са най-вероятно да спечелят мача.

Проблемът с този подход е, че повечето реални ситуации и дори някои игри нямат прост набор от правила, регулиращи начина им на работа. Така че някои изследователи са се опитали да заобиколят проблема, като използват подход, който се опитва да моделира как дадена среда на игра или сценарий ще повлияе на резултата и след това да използва това знание, за да направи план. Недостатъкът на тази система е, че някои аспекти са толкова сложни, че моделирането на всеки аспект е почти невъзможно. Такъв се оказа случаят с повечето игри на Atari например.

В известен смисъл MuZero съчетава най-доброто от двата свята. Вместо да моделира всичко, той само се опитва да разгледа онези фактори, които са важни за вземане на решение. Както DeepMind посочва, това е нещо, което правите като човек. Когато повечето хора гледат през прозореца и виждат тъмни облаци, образуващи се на хоризонта, те обикновено не се хващат да мислят за неща като конденз и фронтове под налягане. Вместо това те мислят как трябва да се облекат, за да останат сухи, ако излязат навън. MuZero прави нещо подобно.

Поставянето на високи резултати в игрите Atari е добре, но какво ще кажем за практическите приложения на най-новите изследвания на DeepMind? С една дума те биха могли да бъдат новаторски. Въпреки че все още не сме достигнали този момент, MuZero е най-близко до разработването на алгоритъм с общо предназначение.

Снимка: DeepMind

Виж още: Новият Lenovo Legion ще има най-мощните говорители за смартфон в света

Тагове: