Когато големият обучаващ модел (LLM) Claude 3 беше пуснат през март, той предизвика вълнение, като победи GPT-4 на OpenAI - който захранва ChatGPT - в ключови тестове, използвани за сравнение на възможностите на генеративните модели на изкуствения интелект (ИИ).

Claude 3 Opus привидно се превърна в новия първенец в големите езикови бенчмаркове - победи в тези самостоятелни тестове, които варират от гимназиални изпити до тестове за разсъждение. Неговите роднини LLM - Claude 3 Sonnet и Haiku - също имат високи резултати в сравнение с моделите на OpenAI.

Тези сравнителни тестове обаче са само част от историята. След обявяването на резултатите независимият тестер на изкуствени интелекти Рубен Хасид изправи GPT-4 и Claude 3 един срещу друг в квартет от неофициални тестове - от резюмиране на PDF файлове до писане на поезия. Въз основа на тези тестове той стигна до заключението, че Claude 3 печели в "четенето на сложни PDF файлове, писането на стихотворение с рими и даването на подробни отговори през цялото време". За разлика от него GPT-4 има предимство при сърфирането в интернет и четенето на PDF графики.

Но Claude 3 впечатлява не само с отличните си резултати в сравнителните тестове - LLM шокира експертите с очевидните си признаци на осъзнатост и самореализация. Въпреки това тук има много място за скептицизъм, тъй като изкуствените интелекти, базирани на LLM, вероятно се отличават с това, че се учат да имитират човешки реакции, а не генерират оригинални мисли.

По време на тестването Алекс Алберт, инженер по командните, подкани в Anthropic - компанията, която стои зад Claude, Claude 3 Opus да избере целево изречение, скрито сред корпус от случайни документи. За изкуствения интелект това е равносилно на намиране на игла в купа сено. Opus не само намери така наречената игла - той разбра, че е тестван. В отговора си моделът заяви, че подозира, че изречението, което е търсил, е било вкарано извън контекста в документите като част от тест, за да се провери дали "обръща внимание".

"Opus не само намери иглата, но и разпозна, че вмъкнатата игла е толкова не на място в купа сено, че това трябва да е изкуствен тест, конструиран от нас, за да проверим способностите му за внимание", пише Алберт в социалната медийна платформа X. "Това ниво на метаосъзнатост беше много готино за наблюдение, но то също така подчерта необходимостта ние като индустрия да преминем от изкуствените тестове към по-реалистични оценки, които могат точно да оценят истинските възможности и ограничения на моделите."

Дейвид Рейн, изследовател на изкуствения интелект в Нюйоркския университет, съобщи, че Claude 3 е постигнал около 60% точност на GPQA - тест с въпроси с избор между няколко отговора, предназначен за предизвикателство пред учените и моделите на изкуствения интелект. Това е значимо, тъй като докторанти и дипломанти, които не са експерти и имат достъп до интернет, обикновено отговарят на тестовите въпроси с 34% точност. Единствено експертите по темите засенчиха Claude 3 Опус с точност в диапазона от 65% до 74%.

GPQA е изпълнен с нови, а не с курирани въпроси, което означава, че Claude 3 може да разчита на запомняне на предишни или познати запитвания, за да постигне своите резултати. Теоретично това би означавало, че той има когнитивни способности на ниво висше образование и би могъл да бъде натоварен със задачата да помага на учени при провеждането на изследвания.

Снимка: Unsplash

Виж още: Apple работи по свой езиков модел за локално ползване директно в телефона ви