Когато става въпрос за реално съхраняване на числовите обеми, които захранват невронната мрежа на голям езиков модел, повечето съвременни модели на изкуствен интелект разчитат на точността на 16- или 32-битови числа с плаваща запетая. Но това ниво на точност може да бъде постигнато за сметка на големи обеми памет (стотици гигабайти за най-големите модели) и значителни ресурси за обработка, необходими за сложното матрично умножение, използвано при отговорите на подсказки.

Сега изследователи от групата за общ изкуствен интелект на Microsoft публикуваха нов модел на невронна мрежа, който работи само с три различни стойности на теглото: -1, 0 или 1. Надграждайки предишна работа на Microsoft Research, публикувана през 2023 г., „тройната“ архитектура на новия модел намалява общата сложност и „съществени предимства в изчислителната ефективност“, пишат изследователите, което му позволява да работи ефективно на обикновен настолен процесор. И въпреки огромното намаление на прецизността на теглото, изследователите твърдят, че моделът „може да постигне производителност, сравнима с водещите модели с отворено тегло и пълна прецизност с подобен размер в широк спектър от задачи“.

Идеята за опростяване на тежестите на моделите не е съвсем нова в изследванията на ИИ. В продължение на години изследователите експериментират с техники за квантуване, които притискат теглата на невронните мрежи в по-малки обеми памет. През последните години най-екстремните усилия за квантуване са съсредоточени върху така наречените „BitNets“, които представят всяко тегло в един бит (представляващ +1 или -1).

Новият модел BitNet b1.58b не отива чак толкова далеч - трикомпонентната система е наречена „1,58-битова“, тъй като това е средният брой битове, необходими за представяне на три стойности (log(3)/log(2)). Но тя се отличава от предишни изследвания, тъй като е „първият естествен 1-битов LLM с отворен код, обучен в голям мащаб“, в резултат на което е създаден модел с 2 милиарда символа въз основа на набор от данни за обучение от 4 трилиона символа, пишат изследователите.

Ключова е думата „естествен“, тъй като много от предишните усилия за квантуване просто се опитваха да намалят размера на вече съществуващи модели, обучени на „пълна точност“, използвайки тези големи стойности с плаваща запетая. Този вид квантуване след обучението може да доведе до „значително влошаване на производителността“ в сравнение с моделите, на които са базирани, пишат изследователите. Междувременно други модели BitNet, обучени в естествен вид, са били в по-малки мащаби, които „все още може да не отговарят на възможностите на по-големите аналози с пълна точност“, пишат те.

Изискванията за памет са най-очевидното предимство на намаляването на сложността на вътрешните тежести на модела. Моделът BitNet b1.58 може да работи само с 0,4 GB памет в сравнение с 2 до 5 GB за други модели с отворени тегла с приблизително същия размер на параметрите.

Но опростената система за претегляне води и до по-ефективна работа по време на изводите, като вътрешните операции разчитат много повече на прости инструкции за събиране и по-малко на изчислително скъпите инструкции за умножение. Тези подобрения в ефективността означават, че BitNet b1.58 използва от 85 до 96 % по-малко енергия в сравнение с подобни модели с пълна точност, изчисляват изследователите.

Въпреки очевидния успех на този експеримент с модела BitNet, изследователите пишат, че не разбират защо той работи толкова добре при такава опростена тежест.

„Задълбочаването в теоретичните основи на това защо обучението с 1 бит в мащаб е ефективно, остава отворена област“, пишат те. Все още са необходими допълнителни изследвания, за да могат тези модели на BitNet да се конкурират с общия размер и „паметта“ на контекстния прозорец на най-големите съвременни модели.

Снимка: Unsplash

Виж още: Mudita Kompakt е решение за онези, които се разсейват прекалено от телефоните си