Споровете около разходите на DeepSeek за обучение на модела R1 разтърсиха пазарите, но изглежда, че около тях е имало много въпросителни, тъй като действителните цифри са наистина изненадващи.
Изследователската фирма SemiAnalysis направи обширен анализ на това, което всъщност стои зад DeepSeek по отношение на разходите за обучение, като опроверга твърдението, че R1 е станал толкова ефективен, че изчислителните ресурси на NVIDIA и други са ненужни. Преди да се спрем на действителния хардуер, използван от DeepSeek, нека разгледаме какво първоначално възприемаше индустрията. Твърдеше се, че DeepSeek е използвала само „5 млн. долара“ за своя модел R1, който е равностоен на o1 на OpenAI GPT, и това предизвика паника на пазара, която се отрази на фондовата борса в САЩ; сега обаче, когато прахът се уталожи, нека разгледаме действителните цифри.
За тези, които не са наясно, първоначално се твърдеше, че DeepSeek е страничен проект на китайския хедж фонд High-Flyer, а в доклада на SemiAnalysis се твърди, че те са закупили 10 000 единици от A100 на NVIDIA през 2021 г., когато ограниченията за износ не са били толкова агресивни. След това DeepSeek се е превърнал в отделна структура, тъй като компанията майка High-Flyer е решила да отдели проекта, и тогава нещата всъщност са започнали да се случват с бърза скорост. С това те започнаха да натрупват изчислителни ресурси, които ще обсъдим по-нататък.
В доклада се казва, че DeepSeek разполага с около 10 000 от „специфичните за Китай“ графични процесори за изкуствен интелект H800 на NVIDIA и 10 000 от по-високия клас чипове за изкуствен интелект H100. Освен това фирмата е инвестирала в ускорителите H20 AI на NVIDIA и те разполагат с набор от ресурси, които се споделят между DeepSeek и High-Flyer за „търговия, обучение и изследвания“. Това означава приблизително 1,6 млрд. долара капиталови разходи за DeepSeek, като според слуховете оперативните разходи ще бъдат около 944 млн. долара. Тези цифри се изразяват в приблизително четиристотин пъти по-високи разходи, отколкото пазарите първоначално възприемаха.
За пояснение, първоначалната сума е посочена като „специфична част“ от разходите за обучение, вероятно свързани с управлението на окончателния модел. Единственото нещо, в което DeepSeek всъщност е била добра, е да се възползва от местните таланти чрез събития за набиране на персонал в най-добрите местни университети, като заплатите на конкретни служители са над 1,3 млн. долара. Мозъците, стоящи зад модела R1 на DeepSeek, наистина са били способни да предложат ефективно решение, което да се конкурира с такива като OpenAI, но „погрешно обявените“ финансови данни са подействали като катализатор на събитията от миналата седмица,
SemiAnalysis проведе обширни тестове с модела за изкуствен интелект на DeepSeek, поради което определено трябва да ги прочетете, ако имате интерес по темата, тъй като в тях се споменават любопитни подробности.
Снимка: Unsplash
Виж още: НАСА откри ключови молекули за живот в проби от астероиди. Ето какво означава това