Claude 3 за първи път задмина GPT-4 в Chatbot Arena

Tech

29.03.2024

Големият езиков модел (LLM) Claude 3 Opus на Anthropic надмина GPT-4 на OpenAI (който захранва ChatGPT) за първи път в Chatbot Arena - популярна класация, използвана от изследователите на ИИ за измерване на относителните възможности на езиковите модели на ИИ. "Кралят е мъртъв", написа в X разработчикът на софтуер Ник Добос в публикация, сравняваща GPT-4 Turbo и Claude 3 Opus, която обикаля социалните мрежи. "RIP GPT-4."

Откакто GPT-4 беше включен в Chatbot Arena около 10 май 2023 г. (класацията стартира на 3 май същата година), досега разновидностите на GPT-4 неизменно бяха на върха на класацията, така че поражението му в Арената е забележителен момент в сравнително кратката история на езиковите модели с изкуствен интелект. Един от по-малките модели на Anthropic, Haiku, също се представя добре в класацията.

"За първи път най-добрите налични модели - Opus за напреднали задачи, Haiku за разходи и ефективност - са от доставчик, който не е OpenAI", заявява независимият изследовател на ИИ Саймън Уилисън пред Ars Technica. "Това е успокояващо - всички ние имаме полза от разнообразието на най-добрите доставчици в тази област. Но GPT-4 вече е на повече от година и тази година беше необходима на всички останали, за да наваксат."

Chatbot Arena се управлява от Large Model Systems Organization (LMSYS ORG) - изследователска организация, посветена на отворените модели, която функционира в сътрудничество между студенти и преподаватели от Калифорнийския университет в Бъркли, Калифорнийския университет в Сан Диего и Университета "Карнеги Мелън".

Възходът на Claude може да притесни OpenAI, но самото семейство GPT-4 (макар и актуализирано няколко пъти) е на повече от година. Понастоящем в Chatbot Arena са изброени четири различни версии на GPT-4, които представляват постепенни актуализации на LLM, които се замразяват във времето, защото всяка от тях има уникален стил на извеждане, а някои разработчици, които ги използват с API на OpenAI, се нуждаят от последователност, за да не се счупят приложенията им, изградени върху отговорите на GPT-4.

Сред тях са GPT-4-0314 ("оригиналната" версия на GPT-4 от март 2023 г.), GPT-4-0613 (моментна снимка на GPT-4 от 13 юни 2023 г. с "подобрена поддръжка на извикване на функции" според OpenAI), GPT-4-1106-preview (стартовата версия на GPT-4 Turbo от ноември 2023 г.) и GPT-4-0125-preview (последният модел на GPT-4 Turbo, предназначен да намали случаите на "мързел" от януари 2024 г.).

Все пак дори и с четири модела GPT-4 в класацията моделите Claude 3 на Anthropic се промъкват последователно нагоре в класацията от пускането им на пазара по-рано този месец. Успехът на Claude 3 сред потребителите на асистенти с изкуствен интелект вече накара някои потребители на LLM да заменят ChatGPT в ежедневния си работен процес, което потенциално може да отнеме от пазарния дял на ChatGPT.

Снимка: Unsplash

Виж още: Навсякъде, където има камера, има риск: милиарди потребители са изложени на нежелано наблюдение

Тагове: