При офталмологични прегледи GPT-4 се представя на нивото на най-добрите очни лекари

HiEnd

20.04.2024

С напредването на моделите за изучаване на езика (LLM) се появяват и въпроси за това как те могат да бъдат от полза за обществото в области като медицината. Неотдавнашно проучване на Училището по клинична медицина към Университета в Кеймбридж установи, че GPT-4 на OpenAI се е представил почти толкова добре при оценка на офталмологията, колкото и експертите в тази област, съобщи първо Financial Times.

В проучването, публикувано в PLOS Digital Health, изследователите са тествали LLM, неговия предшественик GPT-3.5, PaLM 2 на Google и LLaMA на Meta с 87 въпроса с множествен избор. Петима експерти офталмолози, трима стажант-офталмолози и двама неспециализирани младши лекари получиха един и същ имитационен изпит. Въпросите бяха от учебник за изпитване на стажанти по всички въпроси - от чувствителност към светлина до лезии. Съдържанието му не е публично достъпно, затова изследователите смятат, че нито един LLM не е могъл да бъде обучаван по тях преди това. На ChatGPT, оборудван с GPT-4 или GPT-3.5, са били дадени три възможности да отговори окончателно или отговорът му е бил отбелязан като нулев.

GPT-4 постигна по-високи резултати от стажантите и младшите лекари, като отговори правилно на 60 от 87-те въпроса. Това е значително повече от средния брой верни отговори на младшите лекари - 37, но само с малко изпреварва средния брой отговори на тримата стажанти - 59.7. Докато един експерт офталмолог отговорил правилно само на 56 въпроса, петимата имали среден резултат от 66.4 верни отговора, с което изпреварили машината. PaLM 2 получи 49 точки, а GPT-3.5 - 42 точки. LLaMa получи най-нисък резултат от 28 точки, като се оказа под нивото на младшите лекари. Забележително е, че тези изпитания са проведени в средата на 2023 г.

Въпреки че тези резултати имат потенциални ползи, съществуват и доста рискове и опасения. Изследователите отбелязват, че проучването е предложило ограничен брой въпроси, особено в някои категории, което означава, че действителните резултати могат да бъдат различни. LLM също така са склонни да "халюцинират" или да си измислят. Това е едно, ако е несъществен факт, но да твърдиш, че има катаракта или рак, е друга история. Както е в много случаи на използване на LLM, в системите също липсват нюанси, което създава допълнителни възможности за неточности.

Снимка: Unsplash

Виж още: AI може да превърне в реалност 4-дневната работна седмица

Тагове: