Google DeepMind вече е в състояние да обучи малки, готови за употреба роботи да играят на футболно игрище. В нова статия, публикувана в Science Robotics, изследователите подробно описват последните си усилия да адаптират подмножество на машинното обучение, известно като дълбоко обучение с подсилване (deep reinforcement learning - deep RL), за да научат двукраките роботи на опростена версия на спорта. Екипът отбелязва, че докато в миналото с подобни експерименти са създадени изключително пъргави четирикраки роботи (например Boston Dynamics Spot), за двукраки хуманоидни машини е работено много по-малко. Но новите кадри на ботовете, които дриблират, защитават се и стрелят към вратата, показват колко добър треньор може да бъде дълбокото усилващо обучение за хуманоидните машини.

Макар че в крайна сметка е предназначен за мащабни задачи като прогнозиране на климата и материалознание, Google DeepMind може също така да унищожи човешките конкуренти в игри като шах, го и дори Starcraft II. Но всички тези стратегически маневри не изискват сложни физически движения и координация. Така че, макар DeepMind да може да изучава симулирани футболни движения, той не е в състояние да ги пренесе на физическото игрище - но това бързо се променя.

За да създадат миниатюрните копия на Меси, инженерите първо разработват и обучават в компютърни симулации два дълбоки набора от deep RL умения - способността да се изправя от земята и как да вкарва голове срещу необучен противник. Оттам те виртуално обучили системата си да играе пълноценна футболна среща един срещу един, като комбинирали тези набори от умения, след което на случаен принцип ги свързвали срещу частично обучени копия на самите тях.

"По този начин на втория етап агентът се научи да комбинира предварително усвоени умения, да ги усъвършенства до пълната футболна задача и да предвижда и предусеща поведението на противника", пишат изследователите в увода на статията си, като по-късно отбелязват: "По време на играта агентите преминаваха плавно между всички тези поведения".

Благодарение на рамката от deep RL умения агентите, задвижвани от DeepMind, скоро се научиха да подобряват съществуващите си способности, включително как да ритат и стрелят с футболна топка, да блокират удари и дори да защитават собствената си врата от атакуващ противник, като използват тялото си като щит.

По време на поредица от мачове един срещу един с помощта на роботи, използващи дълбокото RL обучение, двамата механични спортисти ходеха, обръщаха се, ритаха и се изправяха по-бързо, отколкото ако инженерите просто им бяха предоставили базисни умения по сценарий. Това също не са незначителни подобрения - в сравнение с неадаптираната базисна сценарийна програма роботите ходят 181% по-бързо, обръщат се 302% по-бързо, ритат 34% по-бързо и им е необходимо 63% по-малко време, за да се изправят след падане. Нещо повече, роботите, обучени на дълбоко RL, показаха и нови, нововъзникващи поведения като завъртане на краката и въртене. Такива действия биха били изключително трудни за предварителен сценарий.

Снимка: Unsplash/Google DeepMind / Tuomas Haarnoja

Виж още: Ако животът на Земята ви е писнал, това предложение за симулацията на Марс в продължение на година е за вас

 

Тагове: