С помощта на мултимодален генеративен езиков модел, наречен ESM3, Томас Хейс и колегите му проектират и синтезират нов ярък флуоресцентен протеин с генетична последователност, която се различава значително от всички известни флуоресцентни протеини. Изследователите отбелязват, че това постижение е сравнимо с това ESM3 да симулира 500 милиона години биологична еволюция.

Този подход предлага новаторски метод за „претърсване“ на огромния пейзаж от потенциални белтъци, като подобрява разбирането ни за естествено еволюиралите белтъци и дава възможност за създаване на нови с приложение в медицината, възстановяването на околната среда и множество други области.

ESM3 може да разсъждава върху последователността, структурата и функцията на протеините, като представя всеки от тях чрез азбуки от дискретни лексеми, които могат да се комбинират в генеративен езиков модел. Тази стратегия се различава от предишните употреби на езикови модели, които са били мащабирани само за протеинови последователности.

Данните за обучение за ESM3 се състоят от 771 милиарда уникални лексеми, създадени от 3.15 милиарда белтъчни последователности, 236 милиона белтъчни структури и 539 милиона белтъци с анотации на функции. ESM3 може да обучава до 98 милиарда параметъра.

ESM3 вече е достъпен в публична бета-версия чрез API, което позволява на учените да проектират протеини програмно или чрез интерактивни приложения, базирани на браузъра. Изследователите могат да използват API на EvolutionaryScale Forge чрез безплатното ниво за академичен достъп или да използват кода и теглата на отворения модел.

Снимка: Unsplash

Виж още: Хора срещу роботи в уникален атлетически маратон тази пролет в Пекин