Светът на изкуствения интелект напоследък се върти около напредъка на генеративния ИИ отвъд простите тестове, които моделите с ИИ вече лесно преминават. Прочутият тест на Тюринг е „победен“ в известен смисъл и се водят спорове дали най-новите модели не са създадени, за да играят с еталонните тестове, които измерват производителността.

Проблемът, казват учени от звеното DeepMind на Google, не е в самите тестове, а в ограничения начин, по който се разработват моделите на ИИ. Данните, използвани за обучение на ИИ, са твърде ограничени и статични и никога няма да доведат до нови и по-добри способности на ИИ.

В статия, публикувана от DeepMind миналата седмица, която е част от предстояща книга на MIT Press, изследователите предлагат на ИИ да бъде позволено да има своеобразни „изживявания“ и да взаимодейства със света, за да формулира цели въз основа на сигнали от околната среда.

„Невероятни нови възможности ще се появят, когато се използва пълният потенциал на ученето чрез преживяване“, пишат учените от DeepMind Дейвид Силвър и Ричард Сътън в статията „Добре дошли в ерата на преживяването“.

Двамата учени са доста изтъкнати в тази област. Силвър е най-известният ръководител на изследванията, довели до създаването на AlphaZero - моделът на изкуствения интелект на DeepMind, който победи хората в игрите шах и Го. Сътън е един от двамата носители на наградата „Тюринг“ за разработване на подход за ИИ, наречен обучение с подсилване, който Силвър и екипът му използват за създаването на AlphaZero.

Подходът, който двамата учени препоръчват, се основава на обучението чрез подсилване и на уроците на AlphaZero. Той се нарича „потоци“ и има за цел да отстрани недостатъците на днешните големи езикови модели (LLM), които са разработени единствено за да отговарят на отделни човешки въпроси.

Силвър и Сътън коментират, че малко след като AlphaZero и неговият предшественик AlphaGo излязоха на сцената, генеративните инструменти за изкуствен интелект, като ChatGPT, се наложиха и „отхвърлиха“ обучението с подсилване. Този ход има своите предимства и недостатъци.

Генеративният ИИ е важен напредък, тъй като използването на обучение с подсилване в AlphaZero беше ограничено до определени приложения. Технологията не можеше да надхвърли границите на игрите със „съвършена информация“ като например шахмата, където всички правила са известни.

Моделите на генеративен ИИ, от друга страна, могат да обработват спонтанни данни от хора, каквито не са срещани досега, без изрични правила за това как трябва да се получат нещата. Отхвърлянето на обучението с подсилване обаче означава, че „нещо е загубено при този преход: способността на агента да открива сам собствените си знания“, пишат те.

Вместо това те отбелязват, че LLM разчитат на човешките предразсъдъци или на това, което човекът иска на етапа на подсказване. Този подход е твърде ограничен. Те предполагат, че човешката преценка налага „непробиваем таван на представянето на агента“: агентът не може да открие по-добри стратегии от тези, които налага човешкият оценител“.

Снимка: Unsplash

Виж още: Когато ИИ може да открие локацията ви по минимален детайл в снимка, споделянето в социалните мрежи става проблемно