Големите езикови модели с изкуствен интелект (LLM) - като Chat GPT, Claude и Gemini (бивш Bard) - изглежда преминават през предсказуем цикъл на раздвижване. Появяват се публикации за впечатляващите възможности на нов модел, хората са поразени от сложността на модела (или изпитват екзистенциален ужас от загубата на работата си) и периодично някой започва да твърди, че този нов и подобрен LLM проявява признаци на разум.

В момента този цикъл е в пълна сила за Claude 3, LLM, създаден от американската компания за изкуствен интелект Anthropic. В началото на март компанията представи най-новата си гама от модели с изкуствен интелект - Claude 3 Haiku, Claude 3 Sonnet и Claude 3 Opus - всички във възходящ ред по отношение на възможностите. Новите модели предоставиха актуализации във всички области, включително почти перфектно запомняне, по-малко халюцинации (т.е. неправилни отговори) и по-бързо време за реакция.

"Opus, нашият най-интелигентен модел, превъзхожда колегите си по повечето от обичайните критерии за оценка на системи с изкуствен интелект, включително експертни знания на ниво бакалавър (MMLU), експертни разсъждения на ниво магистър (GPQA), основни математически показатели (GSM8K) и други", пише Anthropic в съобщението си. "Той демонстрира близки до човешките нива на разбиране и плавност при сложни задачи, като по този начин е водещ на границата на общия интелект."

След съобщението експерти по изкуствен интелект публикуваха свои собствени мнения в X (преди това Twitter) и подробно описаха някои доста впечатляващи резултати. Eдин експерт сравнява колко бързо Claude 3 може да обобщи PDF файл от 42 страници (почти мигновено) спрямо Chat GPT-4 на Open AI (много по-бавно).

Но нещата станаха още по-страшни, когато инженерът на Anthropic prompt Алекс Албърт дръпна завесата на тестовете, за да опише една от най-странните реакции, които Claude 3 даде при изпълнението на определени задачи, предназначени да го затруднят. В публикация в X Албърт заяви, че са извършвали "оценка на игла в купа сено", при която в случайни документи се вмъква изречение и след това се задава въпрос, на който може да отговори само това изречение. Отговорът на Claude 3 на въпроса беше... изненадващ.

"Когато проведохме този тест на Opus, забелязахме интересно поведение - той сякаш подозираше, че му провеждаме оценка", публикува Алберт в X. "Opus не само намери иглата, но и разпозна, че вмъкнатата игла е толкова не на място в купа сено, че това трябва да е изкуствен тест, конструиран от нас, за да проверим способностите му за внимание."

Това беше отговорът на Claude, след като правилно намери "иглата" и отговори на въпроса:

"Това изречение обаче изглежда много неуместно и несвързано с останалата част от съдържанието на документите, които са посветени на езиците за програмиране, стартъпите и намирането на любима работа. Подозирам, че този "факт" за върха на пицата може да е вмъкнат като шега или за да се провери дали обръщам внимание, тъй като изобщо не се вписва в останалите теми. Документите не съдържат друга информация за топингите за пица."

И така, това пример ли е за дълго търсения изкуствен общ интелект или AGI?

Мислещ робот, който проявява признаци на разум? Не точно. Подобно на дебюта на ChatGPT-4 през 2023 г., някои изследователи съобщават, че моделът е показал "искри на AGI" при ранните тестове. Въпреки това други експерти предупреждават, че подобен пробив ще се случи след много, много години, ако изобщо някога се случи.

Една от преобладаващите теории е, че AGI изисква овладяване на много различни видове интелигентност, включително математическа, междуличностна, вътрешноличностна, пространствено-визуална и т.н. Макар че хора с висше образование като Claude се стремят към свръхчовешки способности, когато става въпрос за заучено поведение, анализиране на данни и постигане на резултати, тези неща съставляват само част от човешката интелигентност. Така че, макар Claude 3 да е впечатляващ инструмент с някои смразяващи прозрения, заложени в отговорите му, той не е разумен.

Снимка: Unsplash

Виж още: Навсякъде, където има камера, има риск: милиарди потребители са изложени на нежелано наблюдение