Инженер, който е работил в Twitter по време на сеизмичния преход между ръководството на Агравал и Мъск, си припомня за намирането на клъстер от 700 графични процесора Nvidia V100. Тим Заман, който сега работи като софтуерен инженер в Google DeepMind, е открил, че тази значителна част от графичната мощ е включена, но не работи в центъра за данни на предшественика на сегашната платформа X.
Купчината от силиций и печатни платки на Nvidia в центъра за данни на Twitter беше поетично описана като „забравените останки от непринуден опит за създаване на клъстър в рамките на Twitter 1.0“ от Заман в публикация в Twitter/X в понеделник. Инженерът е бил подтикнат да напише за изненадващото си откритие на това високотехнологично съкровище, след като прочел за суперклъстера на xAI в Мемфис, който започва работа по обучението на Grok 3, задвижван от 100 000 течно охлаждани ускорители Nvidia H100 на една единствена RDMA.
Заман подчерта това, което мнозина биха си помислили - Twitter е имал 700 от най-мощните графични процесори в света, които са работили безцелно в продължение на години. „Как се промениха времената!“, възкликва той. Всъщност първите графични процесори V100 с архитектура Volta на Nvidia за центрове за данни започнаха да пристигат на пазара по време на първия голям недостиг на графични процесори през 2017 г., а Заман открива, че този куп, захранван с над 700 карти V100, работи без причина в средата на 2022 г. Това е много загубено изчислително време и ресурси.
Друг любопитен момент за Заман беше откритието, че 700-те графични процесора Nvidia V100 са PCIe, а не далеч по-високата честотна лента на NVLink, свързана с формата на SXM2. Разбира се, не знаем защо Twitter от 2017 г. е купил графични процесори V100 с шина PCIe вместо с шина SXM2 за тази мащабна инсталация и може би никога няма да разберем.
Постът на Заман съдържа и някои интересни разсъждения за новата „Гигафабрика за изчисления“ на Мъск. Работата на „100 000 графични процесора върху една и съща RDMA трябва да е епично предизвикателство“, коментира инженерът. „При такъв мащаб единственият вариант е, че нещата ще се провалят.“ Имайки предвид това, Заман размишлява върху разделянето на ресурсите в отделни области, така че отказът на едно място да не доведе до дефект на цялата инсталация.
Снимка: Unsplash
Виж още: ifi Go Bar Kensei: стил и звук в уникална симбиоза (РЕВЮ)