Новата версия на DeepSeek може да е два пъти по-икономична от GPT-4

Tech

29.04.2025

Изглежда, че китайската фирма DeepSeek съвсем скоро ще пусне на пазара още един ИИ модел, тъй като в интернет се появиха подробности за следващата версия, наречена DeepSeek R2.

Първият масов модел на DeepSeek - R1 - показа на западния свят, че Китай изобщо не изостава, когато става въпрос за разработване на модели с изкуствен интелект от висок клас. Пускането на китайския модел шокира американската фондова борса до степен, в която водещи ИИ компании загубиха милиарди от оценката си, но също така показа, че разработването на модели за ИИ не изисква толкова високи разходи, колкото компании като OpenAI бяха разкрили пред обществеността. Сега китайските медии започнаха да съобщават за слухове около следващия модел на ИИ R2 на DeepSeek и няма да е погрешно да се каже, че западните ИИ пазари могат да видят още едно изненадващо развитие, идващо от Китай.

Преди да навлезем в детайлите, е важно да приемате слуховете с известна доза недоверие, тъй като DeepSeek все още не е потвърдила официалните данни за следващия си модел. Китайските източници твърдят, че моделът R2 ще възприеме хибридна архитектура MoE (Mixture of Experts), за която се смята, че е усъвършенствана версия на съществуващата реализация на MoE, която вероятно ще включва усъвършенствани механизми за защита или комбинация от MoE и плътни слоеве за оптимизиране на натоварванията от висок клас. С тази архитектура DeepSeek R2 ще разполага с двойно повече параметри от R1 - 1.2 трилиона.

Само въз основа на тази цифра изглежда, че R2 може да се конкурира с GPT-4 Turbo и Gemini 2.0 Pro на Google, но това не е единствената област, в която DeepSeek планира да окаже влияние. В доклада се твърди, че при DeepSeek R2 единичните разходи за един токен са по-ниски с 97.4% в сравнение с GPT-4, които идват с 0.07 долара за входния токен и 0.27 долара за изходния токен. В сравнение с разходите на OpenAI моделът R2 на DeepSeek ще бъде изгоден за предприятията, тъй като ще бъде най-рентабилният модел там. Пускането на пазара може да се окаже решаващ момент за изкуствения интелект и икономиката около него.

Друг интересен факт, разкрит за DeepSeek R2, е, че се твърди, че моделът постига 82% използване на клъстера на чипа Ascend 910B на Huawei, като изчислителната мощност е измерена на 512 PetaFLOPS при FP16 прецизност, което показва, че DeepSeek наистина е решил да използва собствени ресурси за следващия си основен модел. Знаехме, че китайската фирма за изкуствен интелект е силно заинтересована от чиповете за изкуствен интелект на Huawei и чрез обучението на R2 със собствено оборудване DeepSeek по същество е „вертикално интегрирала“ веригата за доставки на изкуствен интелект.

Важно е да се отбележи още веднъж, че развитието на ситуацията около DeepSeek R2 е спекулативно и че крайният модел може да бъде различен. Въпреки това въз основа на съобщаваното от китайските медийни източници R2 изглежда като поредната версия, която ще изненада основните играчи в сегмента за изкуствен интелект.

Снимка: Unsplash

Виж още: Древен лагер показва как хората са се адаптирали към екстремния студ в Европа

Тагове: