Според ново проучване модел на изкуствен интелект е симулирал половин милиард години молекулярна еволюция, за да създаде кода на неизвестен досега протеин. Светещият протеин, който е подобен на тези, открити в медузите и коралите, може да помогне при разработването на нови лекарства, твърдят изследователите.

Протеините са един от градивните елементи на живота и изпълняват различни функции в организма, като изграждане на мускулите и борба с болестите. Симулираният протеин, наречен esmGFP, съществува само като компютърен код, но съдържа проекта за неизвестен досега вид зелен флуоресцентен протеин. В природата зелените флуоресцентни протеини придават блясък на флуоресцентните медузи и корали.

Последователността на буквите, които изписват инструкциите за създаване на esmGFP, е само 58 % сходна с най-близкия известен флуоресцентен протеин, който е модифицирана от човека версия на протеин, открит в морските анемони с мехурчета (Entacmaea quadricolor) - цветни морски същества, които изглеждат така, сякаш имат мехурчета в края на пипалата си. Останалата част от последователността е уникална и за нейното развитие са необходими общо 96 различни генетични мутации. Според проучването тези промени биха отнели повече от 500 милиона години, за да се развият по естествен път.

Изследователи от компания, наречена EvolutionaryScale, представиха esmGFP и използвания за създаването му модел на изкуствен интелект - ESM3 - в предварително проучване миналата година.

ESM3 не проектира протеини в рамките на обичайните ограничения на еволюцията. Вместо това, той решава проблеми, като запълва пропуски в непълния белтъчен код, предоставен от изследователите, и по този начин проектира нещо, което би могло да съществува въз основа на всички потенциални пътища, по които еволюцията би могла да поеме.

„Установихме, че ESM3 изучава фундаменталната биология и може да генерира функционални протеини извън пространството, изследвано от еволюцията“, казва съавторът на изследването Алекс Рийвс, съосновател и главен учен на EvolutionaryScale, пред Live Science.

Новото проучване се основава на изследвания, които Рийвс и колегите му започват в Meta, компанията майка на Facebook и Instagram, преди да започнат EvolutionaryScale през 2024 г. ESM3 е тяхната последна версия на генеративен езиков модел, подобен на GPT-4 на OpenAI, който управлява ChatGPT, но е базиран на биологията.

Протеините се състоят от вериги от молекули, наречени аминокиселини, чиято последователност се осигурява от гените. Различните протеини имат различни последователности от аминокиселини. Те се различават и в структурно отношение, като всеки от тях се сгъва в уникална форма, която им позволява да изпълняват функциите си, според Nature Education. За да може ESM3 да разбере протеините, изследователите подават на модела данни за основните свойства на един протеин - аминокиселинна последователност, структура и функция - като поредица от букви.

Екипът обучава ESM3 на данни от 2,78 милиарда протеини, открити в природата. След това изследователите скрили произволно части от белтъчен план и накарали ESM3 да попълни пропуските, за да завърши кода въз основа на наученото.

„По същия начин, по който човек може да попълни празните места в стихотворението „да _ или да не _, това е _“, можем да обучим езиков модел да попълва празните места в протеините“, казва Рийвс. „Нашите изследвания показаха, че чрез решаването на тази проста задача в мрежата се появява информация за дълбоката структура на биологията на протеините.“

Учените вече модифицират естествени протеини и създават нови за различни цели. Например зелените флуоресцентни протеини се използват широко в изследователските лаборатории. Техният генетичен код често се добавя към края на други ДНК последователности, за да превърне кодираните от тях протеини в зелени. Това позволява на учените лесно да проследяват протеините и клетъчните процеси. Рийвс отбеляза, че възможностите на ESM3 могат да ускорят широк спектър от приложения на протеиновото инженерство, включително с помощта на разработването на нови лекарства.

Снимка: Unsplash/EvolutionaryScale

Виж още: След като пусна силен конкурент на ChatGPT, DeepSeek се прицели в най-добрите генератори на изображения