
Изследователски екип от университета „Карнеги Мелън“ е създал модел с изкуствен интелект, наречен LegoGPT, който създава валидни дизайни на LEGO от въведени текстови данни. Според изследователския документ на екипа, който е публикуван в GitHub, те са обучили „авторегресивен голям езиков модел за предсказване на следващата тухла за добавяне чрез предсказване на следващия символ“, но ключовият момент е, че LLM създава LEGO дизайни от нулата.
ИИ е обучен върху набор от данни с повече от 47 000 структури LEGO, които изграждат над 28 000 уникални 3D обекта, включително етажерки за книги, маси, столове, автомобили, кораби, китари и др. После това беше използвано за обучение на модела на ИИ, което му позволява да създава уникални и оригинални дизайни единствено от текстови входни данни.
Инструментът е достъпен безплатно в GitHub и можете да го свържете с модел за компютърно зрение или ИИ за обработка на изображения. Например можете да направите снимка на наличните си тухлички LEGO и да позволите на ИИ да ви даде множество уникални варианти за построяване с това, което вече имате.
Екипът е добавил проверка за валидност и физично съобразено връщане назад по време на авторегресивното извеждане, което гарантира, че крайният резултат винаги ще бъде валиден (т.е. няма припокриващи се тухлички) и стабилен (т.е. няма плаващи тухлички). Освен това крайният резултат на LegoGPT може да се изгражда както от хора, така и от роботи.
Ето как екипът създава набора от данни, наречен StableText2Lego и използван за обучение на LegoGPT: въведеният текст първо се преобразува в мрежа ShapeNetCore, след което тя се включва в мрежа от 20 x 20 x 20 воксела, от която се определя първоначалното разположение на тухличките LEGO.
След това разположението се променя, като се запазва общата форма, и после нестабилните проекти се филтрират от крайния резултат. Останалите се визуализират в 24 различни гледни точки, след което GPT-4o се използва за генериране на описания за крайния резултат.
LegoGPT преобразува текста в конструкция LEGO, която след това се превръща в текстови маркери, подредени отдолу нагоре. После се създават инструкции за свързване на структурираните тухлички LEGO с анотации, обясняващи дизайна, така че изкуственият интелект да разбере връзките между текстовата подсказка и физическите тухлички.
След това LegoGPT прогнозира следващата тухла, необходима за изграждане на дизайна, като използва авторегресивен модел. Това означава, че той проверява валидността на дадена тухла на всяка стъпка, като проверява дали е добре форматирана, дали съществува в библиотеката и дали не се припокрива със съществуващи тухли. Това ще продължи, докато проектът бъде завършен, след което се проверява неговата стабилност.
Ако изкуственият интелект установи, че изходът е нестабилен, той ще се върне до последното стабилно състояние и ще продължи генерирането от тази точка. След като получи стабилен краен изход, дизайнът е завършен.
Ако искате сами да си поиграете с изкуствения интелект, екипът публикува набор от данни, код и модели, което улеснява всеки, който желае да се възползва от работата на екипа. Едно от развитията, които можем да видим, е, ако някой превърне това в приложение за изтегляне с персонализирана библиотека от тухлички.
Снимка: Unsplash/Pun, Deng, Liu, Ramanan, Liu, Zhu / Carnegie Mellon University
Виж още: Тази възстановка на кабелна телевизия от 90-те години връща носталгията по онова време