Проучване на Apple разкрива критични недостатъци в логическото мислене на изкуствения интелект

Tech

22.10.2024

Според наскоро публикувано проучване изследователският екип по изкуствен интелект на Apple е открил значителни слабости в способностите за разсъждение на големи езикови модели.

В проучването, публикувано в arXiv, се описва оценката на Apple на редица водещи езикови модели, включително тези на OpenAI, Meta и други известни разработчици, за да се определи доколко добре тези модели могат да се справят със задачи за математически разсъждения. Констатациите разкриват, че дори малки промени във формулировката на въпросите могат да доведат до големи разминавания в работата на моделите, което може да подкопае тяхната надеждност в сценарии, изискващи логическа последователност.

Apple обръща внимание на един постоянен проблем в езиковите модели: тяхната зависимост от съвпадение на модели, а не от истинско логическо разсъждение. В няколко теста изследователите демонстрират, че добавянето на несъществена информация към даден въпрос - подробности, които не би трябвало да влияят на математическия резултат - може да доведе до значително различни отговори от моделите.

Един от примерите, дадени в статията, включва проста математическа задача, в която се пита колко кивита е събрал човек за няколко дни. Когато са въведени несъществени подробности за размера на някои кивита, модели като o1 на OpenAI и Llama на Meta коригират неправилно крайната сума, въпреки че допълнителната информация не оказва влияние върху решението.

Тази слабост в разсъжденията кара изследователите да заключат, че моделите не използват истинска логика за решаване на проблеми, а разчитат на сложно разпознаване на модели, научено по време на обучението. Те установиха, че „простата смяна на имената може да промени резултатите“, което е потенциално тревожен знак за бъдещето на приложенията на изкуствения интелект, които изискват последователни и точни разсъждения в реални условия.

Според проучването всички тествани модели - от по-малки версии с отворен код като Llama до собствени модели като GPT-4o на OpenAI - показват значително влошаване на производителността, когато се сблъскат с привидно несъществени промени във входните данни. Apple предполага, че може да се наложи изкуственият интелект да комбинира невронни мрежи с традиционно, основано на символи разсъждение, наречено невросимволичен изкуствен интелект, за да се получат по-точни способности за вземане на решения и решаване на проблеми.

Снимка: Unsplash

Виж още: Новото Tesla Cybercab: то работи, вие печелите пари

Тагове: