Големите езикови модели - вид изкуствен интелект, който анализира текст - могат да предсказват резултатите от предложени неврологични изследвания по-точно от човешките експерти, показва проучване, ръководено от изследователи от UCL (University College London).
Констатациите, публикувани в Nature Human Behaviour, показват, че големите езикови модели (LLM), обучени върху огромни набори от данни с текст, могат да извлекат модели от научната литература, което им позволява да прогнозират научни резултати със свръхчовешка точност.
Изследователите казват, че това подчертава техния потенциал като мощни инструменти за ускоряване на научните изследвания, които далеч надхвърлят простото извличане на знания.
Водещият автор д-р Кен Луо казва: „От появата на генеративния изкуствен интелект като ChatGPT много изследвания се фокусираха върху възможностите на LLM да отговарят на въпроси, демонстрирайки забележителните им умения да обобщават знания от обширни данни за обучение. Ние обаче, вместо да наблягаме на тяхната ретроспективна способност да извличат информация от миналото, изследвахме дали LLM могат да синтезират знания, за да предсказват бъдещи резултати".
„Научният прогрес често се основава на опити и грешки, но всеки щателен експеримент изисква време и ресурси. Дори и най-опитните изследователи могат да пропуснат критични прозрения от литературата. Нашата работа изследва дали LLM могат да идентифицират модели в огромни научни текстове и да прогнозират резултатите от експерименти.“
Международният изследователски екип започна своето проучване, като разработи BrainBench - инструмент за оценка на това доколко добре големите езикови модели могат да предсказват резултати от неврологични изследвания.
BrainBench се състои от множество двойки резюмета на неврологични изследвания. Във всяка двойка едната версия е истинско резюме на изследване, което описва накратко историята на изследването, използваните методи и резултатите от изследването. В другата версия контекстът и методите са същите, но резултатите са променени от експерти в съответната област на невронауката до правдоподобен, но неправилен резултат.
Изследователите тествали 15 различни LLM с общо предназначение и 171 човешки експерти по невронауки (всички те преминали скринингов тест за потвърждаване на тяхната компетентност), за да видят дали ИИ или човекът могат правилно да определят кое от двете сдвоени резюмета е истинското с действителните резултати от изследването.
Всички големи модели превъзхождаха специалистите по неврология, като алгоритмите постигат средна точност 81%, а хората - със средна точност 63%. Дори когато екипът на изследването ограничи отговорите на хората само до тези с най-висока степен на експертност за дадена област на невронауката (въз основа на самооценката на експертността), точността на невролозите все още не отговаря на тази на LLM - 66%.
Освен това изследователите установиха, че когато алгоритмите са били по-уверени в решенията си, вероятността те да са правилни е била по-голяма. Изследователите казват, че това откритие проправя пътя към бъдещето, в което човешките експерти биха могли да си сътрудничат с добре калибрирани модели.
След това изследователите адаптират съществуващ LLM (версия на Mistral, LLM с отворен код), като го обучават конкретно на неврологична литература. Новият LLM, специализиран в неврологията, който те нарекоха BrainGPT, се оказа още по-добър в предсказването на резултатите от изследванията, като постигна 86% точност (подобрение в сравнение с версията на Mistral с общо предназначение, която беше 83% точна).
Старшият автор проф. Брадли Лав заявява: „Предвид нашите резултати предполагаме, че не след дълго учените ще използват инструменти на изкуствения интелект, за да разработят най-ефективния експеримент за своя въпрос. Макар че нашето проучване се фокусира върху неврологията, подходът ни е универсален и би трябвало да се прилага успешно в цялата наука.
Снимка: Unsplash