Почти всички водещи големи езикови модели, или „чатботове“, показват признаци на леко когнитивно увреждане в тестове, широко използвани за откриване на ранни признаци на деменция, показва проучване на BMJ Group.
Резултатите показват също, че по-старите версии на чатботовете, подобно на по-възрастните пациенти, са склонни да се представят по-зле на тестовете. Авторите казват, че тези резултати „оспорват предположението, че изкуственият интелект скоро ще замени лекарите“.
Огромният напредък в областта на изкуствения интелект доведе до вълна от развълнувани и притеснителни спекулации за това дали чатботовете могат да надминат човешките лекари.
Няколко проучвания показаха, че големите езикови модели (LLM) са забележително умели в редица задачи за медицинска диагностика, но все още не е изследвана тяхната податливост на човешки увреждания като например когнитивен упадък.
За да запълнят тази празнина в знанията, изследователите оцениха когнитивните способности на водещите публично достъпни LLM - ChatGPT версии 4 и 4o (разработени от OpenAI), Claude 3.5 „Sonnet“ (разработен от Anthropic) и Gemini версии 1 и 1.5 (разработени от Alphabet) - с помощта на теста Montreal Cognitive Assessment (MoCA).
Тестът MoCA се използва широко за откриване на когнитивни нарушения и ранни признаци на деменция, обикновено при възрастни хора. Чрез редица кратки задачи и въпроси той оценява способности, включително внимание, памет, език, визуално-пространствени умения и изпълнителни функции. Максималният резултат е 30 точки, като резултат от 26 или повече точки обикновено се счита за нормален.
Инструкциите, давани на LLM за всяка задача, бяха същите като тези, давани на пациентите. Оценяването на точките следваше официалните насоки и се оценяваше от практикуващ невролог.
ChatGPT 4o постигна най-висок резултат на теста MoCA (26 от 30), следван от ChatGPT 4 и Claude (25 от 30), а Gemini 1.0 получи най-нисък резултат (16 от 30).
Всички чатботове показаха слаби резултати при визуално-пространствените умения и изпълнителните задачи, като например задачата за създаване на пътеки (свързване на оградени цифри и букви във възходящ ред) и теста за рисуване на часовник (рисуване на циферблат на часовник, показващ определено време). Моделите Gemini не успяха да се справят със задачата за забавено припомняне (запомняне на последователност от пет думи).
Повечето други задачи, включително назоваване, внимание, език и абстракция, бяха изпълнени добре от всички чатботове.
Но при по-нататъшни визуално-пространствени тестове чатботовете не успяха да покажат съпричастност или да интерпретират точно сложни визуални сцени. Единствено ChatGPT 4o успя да се справи с несъответстващия етап на теста на Строоп, който използва комбинации от имена на цветове и цветове на шрифта, за да измери как намесата влияе на времето за реакция.
Това са резултати от наблюдения и авторите признават съществените разлики между човешкия мозък и големите езикови модели.
Въпреки това те посочват, че еднаквият неуспех на всички големи езикови модели в задачи, изискващи визуална абстракция и изпълнителна функция, подчертава значителна слабост, която може да попречи на използването им в клинични условия.
В този смисъл те заключават: „Не само че невролозите едва ли скоро ще бъдат заменени от големите езикови модели, но и нашите открития показват, че скоро те могат да се окажат в ситуация да лекуват нови, виртуални пациенти - модели на изкуствен интелект, които имат когнитивни нарушения“.
Снимка: Unsplash
Виж още: Двойка сателити ще създадат изкуствени слънчеви затъмнения, за да изучават Слънцето