DiffusionGemma е най-бързият изкуствен интелект на Google досега, но това има и своята цена

Tech

14.06.2026

Google пусна DiffusionGemma – експериментален модел на изкуствен интелект, който използва коренно различен подход в сравнение с начина, по който повечето чатботове генерират текст днес. Вместо да изписва думите една след друга в строга последователност, той генерира цял блок текст наведнъж и след това продължава да го усъвършенства, докато не стане четим. Идеята е да се постигне по-висока скорост и по-голяма ефективност на хардуера дори ако това означава да се жертва част от изпипаността на крайния резултат.

Този нов модел на изкуствен интелект е с отворен код под лиценз Apache 2.0 и е предназначен по-скоро за разработчици и изследователи, отколкото за обикновени потребители. За да разберем защо това е важно, е полезно да разгледаме как функционират повечето големи езикови модели. Системи като Gemma 4 на Google генерират текст стъпка по стъпка, по един токен наведнъж. Всяка нова дума зависи от това, което я предшества, което прави процеса по същество последователен и по-труден за ускоряване.

DiffusionGemma, от друга страна, започва с пълен набор от случайни символи, по същество неразбираем текст, и след това многократно го изчиства в няколко цикъла. С всеки цикъл резултатът става по-структуриран и последователен, докато не се установи в окончателен отговор. Прост начин да си го представим е, че традиционните модели пишат, докато DiffusionGemma изготвя чернова и редактира всичко наведнъж.

Тази промяна оказва пряко влияние върху производителността. Според твърденията на Google, DiffusionGemma може да бъде до четири пъти по-бърз от стандартните авторегресивни модели в сценарии с ниска паралелност, където един потребител или процес използва GPU. На хардуер от висок клас цифрите са дори още по-впечатляващи. Компанията твърди, че постига повече от 1000 токена в секунда на NVIDIA H100 и над 700 токена в секунда на RTX 5090.

Всъщност DiffusionGemma е модел Mixture-of-Experts с 26 милиарда параметри, но не активира всички тях наведнъж. По време на извличането се използват само около 3.8 милиарда параметри, което помага да се поддържат управляеми изискванията за изчислителна мощност. Google твърди, че това позволява моделът да се изпълнява на висококачествени потребителски GPU при квантизация, с паметно пространство от около 18 GB VRAM.

Нещата стават още по-интересни, когато разгледаме как моделът всъщност генерира текст. Той може да създава до 256 токена едновременно в рамките на една стъпка, като всеки токен може да взаимодейства с всеки друг токен в блока. Това дава на модела цялостен поглед върху резултата, а не строго линеен.

Това го прави по-подходящ за структурирани или базирани на правила задачи. Например той може да помогне за попълване на липсващи части от код, за завършване на структурирани формати като JSON, за решаване на логически сложни задачи като пъзели от типа судоку или за обработка на математически модели, при които последователността в целия резултат е по-важна от потока на отделните изречения. Тъй като вижда целия блок наведнъж, той може също да коригира противоречия в рамките на същия цикъл на генериране, вместо да чака по-късен токен да ги поправи.

Но има една уловка и Google я признава откровено. DiffusionGemma не достига качеството на резултатите, характерно за стандартните модели Gemma 4. Текстът може да бъде по-нестабилен, по-неизпипан и не толкова надежден при сложни или нюансирани отговори. С други думи – печелите скорост, но губите част от изпипаността.

Ето защо Google го позиционира като експериментален инструмент – той е предназначен за ситуации, в които бързината е по-важна от съвършенството, като например AI инструменти в реално време, асистенти за писане или програмиране в режим на реално време, както и бързи итеративни работни процеси, при които потребителите държат повече на незабавната обратна връзка, отколкото на окончателното качество на текста.

Следователно DiffusionGemma не е предназначен да замести съществуващите модели Gemini или Gemma. Това е експеримент, при който скоростта е на първо място и който жертва качеството на резултата в името на ефективността и отзивчивостта. Но той също така подсказва за различна посока в генерирането на текст чрез изкуствен интелект, при която моделите не просто предсказват следващата дума, а генерират и усъвършенстват цели блокове от текст едновременно.

Снимка: Unsplash/Google

Виж още: Първият орбитален център за данни на Илон Мъск има по-широк размах от крилете на Боинг 747

Тагове: