Anthropic представи Claude 3.5 Sonnet, който е равен на GPT-4o в бенчмарковете

Tech

24.06.2024

Anthropic обяви Claude 3.5 Sonnet - най-новия си модел на език с изкуствен интелект и първия от новата серия модели "3.5", които надграждат стартиралия през март Claude 3. Claude 3.5 може да съставя текст, да анализира данни и да пише код. Той разполага с контекстен прозорец с 200 000 символа и вече е достъпен на уебсайта на Claude и чрез API. Anthropic също така представи Artifacts, нова функция в интерфейса на Claude, която показва свързани работни документи в специален прозорец.

Засега потребителите изглеждат впечатлени. "Този модел е наистина, наистина добър", пише независимият изследовател на изкуствения интелект Саймън Уилисън в X. "Мисля, че това е новият най-добър модел като цяло (и едновременно по-бърз и на половин цена от Opus, подобно на скока от GPT-4 Turbo към GPT-4o)."

Както сме изтъквали преди, сравнителните тестове за големи езикови модели (LLM) са проблемни, тъй като често не отразяват усещането и нюансите при използването на машина за генериране на резултати по почти всяка възможна тема. Но според Anthropic, Claude 3.5 Sonnet съвпада или превъзхожда конкурентни модели като GPT-4o и Gemini 1.5 Pro при определени бенчмаркове като MMLU (знания на ниво бакалавър), GSM8K (математика за началното училище) и HumanEval (кодиране).

Ако всичко това ви изглежда внушително, реално то е значимо за изследователите, но за всички останали е най-вече маркетинг. По-полезният показател за ефективност идва от това, което можем да наречем "вибрационни знаци" (vibemarks), които са субективни, нестроги съвкупни усещания, измерени от конкурентната употреба на сайтове като Chatbot Arena на LMSYS. В момента там се оценява моделът Claude 3.5 Sonnet и е твърде рано да се каже колко добре ще се справи.

Claude 3.5 Sonnet също така превъзхожда предишния най-добър модел на Anthropic (Claude 3 Opus) при сравнителни тестове, измерващи "разсъждения", математически умения, общи познания и способности за кодиране. Например моделът демонстрира високи резултати при вътрешна оценка на кодирането, решавайки 64% от задачите в сравнение с 38% за Claude 3 Opus.

Claude 3.5 Сонет също е мултимодален модел на изкуствен интелект, който приема визуални данни под формата на изображения, и се съобщава, че новият модел се справя отлично с набор от тестове за визуално разбиране. Грубо казано, визуалните бенчмаркове означават, че 3.5 Sonnet извлича по-добре информация от изображенията в сравнение с предишните модели. Например можете да му покажете снимка на заек с футболна каска и моделът ще разбере, че това е заек с футболна каска, и ще може да говори за него. Това е забавно за технологични демонстрации, но технологията все още не е достатъчно точна за приложения на техниката, при които надеждността е от критично значение.

Според Anthropic Claude 3.5 Sonnet работи с два пъти по-висока скорост от Claude 3 Опус. Освен това е по-евтин при приблизително еквивалентна производителност - в API новият модел 3.5 струва 3 долара на милион входни токени и 15 долара на милион изходни токени. За сравнение Opus е 15 долара на милион входни токени и 75 долара на милион изходни токени.

Снимка: Unsplash/Anthropic

Виж още: Ако искаме хора да живеят на Луната се нуждаем от космическа медицина

Тагове: