Опитният разработчик на Windows Дейв Пламър се завръща в гаража си, препълнен с компютри, като този път се надява да разкрие тайните на изкуствения интелект, разкривайки неговата „мръсна малка тайна“.
Тази тайна до голяма степен се разкрива още в първия ред от описанието на видеото: „Дейв използва PDP-11, за да обучи истинска невронна мрежа, включваща трансформатори и механизъм за внимание, така че да можете да ги видите в най-основния им вид.“ За малко контекст, това е неговата лична 47-годишна система PDP-11 с 6 MHz процесор и 64 KB RAM. Тя изпълнява трансформатор модел, наречен ATTN-11, написан на асемблерен език за PDP-11 от Дамиен Бурейл.
На пръв поглед задачата, която PDP-11 ще се „научи“ да изпълнява, изглежда елементарна – да обърне последователност от осем цифри. Въпреки това, за да успее при всеки даден вход, моделът трябва да усвои структурно правило, което според Дейв улавя същността на начина, по който работят съвременните големи езикови модели (LLM) като ChatGPT.

„Това е един опит да вземем набор от алгоритми, които светът в момента третира като нещо ново, и да докажем, че поне тяхната същност може да бъде редуцирана, разбрана, имплементирана и обучена на машина, достатъчно стара, за да си спомня времето, когато софтуерът се предлагаше с превключватели и три пръстеновидни папки“, казва Дейв. "Сега знаете какво всъщност представлява този процес. Това не е магия на изкуствения интелект. Това е машината, която многократно актуализира силата на хиляди малки претеглени връзки, така че следващият отговор да бъде малко по-малко грешен от предишния.“
Въпреки че използва Attention 11 – еднослоен трансформатор с една глава, написан изцяло на асемблерен език за PDP-11, Дейв все пак трябва да оптимизира модела според системните ограничения. „Ограниченията не са враг на инженерството. Ограниченията са това, което провокира творческото инженерство", категоричен е той. Дори може да е изненадващо колко малко „скеле“ е необходимо, за да се появи ИИ. Например, използваният модел има само 1216 параметъра; той използва математика с фиксирана запетая, прецизността е ограничена до 8 бита за преминаването напред, а всеки цикъл е оптимизиран, за да се гарантира, че машината може да завърши обучението в разумни срокове.
Дейв коментира, че „наблюдаваме опростената анатомия на самото учене. Моделът започва като глупав. Точността се препъва като човек, който се опитва да сглоби мебели от IKEA в задната част на камион за преместване, докато се движи. И тогава някъде по пътя тежестите се установяват в определен модел. И вниманието открива картата на обратната връзка. И машината преминава тази невидима линия от гадаене към знание.“
Резултатите от експеримента по обучение на изкуствен интелект на един стар компютър с честота 6 MHz бяха задоволителни. Дейв успя да накара модела да постигне 100% точност при задачата за обръщане на числата след около 350 стъпки на обучение. За да се достигне това ниво на обучение, бяха необходими около 3,5 минути на PDP-11/44, с помощта на кеш платка. Доста голям успех, а Дейв настоява, че съвременният ИИ е същата механична – а не мистична – техника с масивно увеличена корекция на грешки и аритметика.
„Тази стара машина не мисли в някакъв мистичен смисъл. Просто преминава през аритметични операции, за да актуализира няколко хиляди внимателно съхранени числа. И това е цялата работа. Блясъкът на съвременния ИИ идва главно от това, че го прави в зашеметяващ мащаб. Но същинският акт на учене вече е тук, напълно в миниатюрен вариант“, обяснява ветеранът-разработчик на Windows.
Накрая Плъмър заключава, че с превръщането на недостига на изчислителни ресурси в ограничаващ фактор, всяка компания, която може да прегърне старомодната мания за ефективност и оптимизация, би могла да спечели значително предимство.
Снимка: Unsplash/Dave Plummer
Виж още: Новият ИИ кодекс на Linux: Хората трябва да носят вина за грешките