ChatGPT с рекорден процент грешки при здравни диагнози на деца

Tech

14.01.2024

ChatGPT все още не е заместител на здравните специалисти.

Макар че бъбривият бот с изкуствен интелект и преди не се е справял с опитите си да диагностицира сложни медицински случаи - с 39% точност при анализ от миналата година, - проучване, публикувано тази седмица в JAMA Pediatrics, показва, че четвъртата версия на големия езиков модел е особено лоша при децата. Точността му при диагностициране на педиатрични медицински случаи е едва 17%.

Ниският процент на успеваемост предполага, че педиатрите няма да останат без работа скоро, в случай че това е било проблем. Както казват авторите: "Това изследване подчертава безценната роля на клиничния опит". Но то също така идентифицира критичните слабости, довели до високия процент грешки на ChatGPT, и начините за превръщането му в полезен инструмент в клиничните грижи. При толкова голям интерес и експерименти с чатботове с изкуствен интелект много педиатри и други лекари виждат интеграцията им в клиничните грижи като неизбежна.

Медицинската сфера като цяло е ранният възприемател на технологиите, задвижвани от ИИ, което доведе до някои забележителни неуспехи, като например създаването на алгоритмични расови предразсъдъци, както и до успехи, като например автоматизиране на административни задачи и подпомагане на интерпретацията на скенери на гръдния кош и изображения на ретината. Има и много междинни резултати. Потенциалът на ИИ за решаване на проблеми обаче предизвика значителен интерес към разработването му като полезен инструмент за сложна диагностика - не е необходим ексцентричен, бодлив, пилеещ хапчета медицински гений.

В новото проучване, проведено от изследователи в Детския медицински център "Коен" в Ню Йорк, ChatGPT-4 показа, че все още не е готов за диагностика в педиатрията. В сравнение с общите случаи педиатричните изискват повече съобразяване с възрастта на пациента, отбелязват изследователите. А както всеки родител знае, диагностицирането на състояния при бебета и малки деца е особено трудно, когато те не могат да посочат или формулират всички симптоми, които изпитват.

За целите на проучването изследователите са изправили чатбота срещу 100 предизвикателства за педиатрични случаи, публикувани в JAMA Pediatrics и NEJM между 2013 и 2023 г. Това са медицински случаи, публикувани като предизвикателства или викторини. Лекарите, които четат заедно с тях, се приканват да се опитат да поставят правилната диагноза на сложен или необичаен случай въз основа на информацията, с която са разполагали лекуващите лекари по това време. Понякога в публикациите се обяснява и как лекуващите лекари са стигнали до правилната диагноза.

За теста на ChatGPT изследователите вмъкнаха съответния текст на медицинските случаи в подкана, след което двама квалифицирани лекари изследователи оцениха отговорите, генерирани от изкуствения интелект, като правилни, неправилни или "не отразяват напълно диагнозата". В последния случай ChatGPT е предложил клинично свързано състояние, което е било твърде широко или неспецифично, за да се счита за правилна диагноза. Например ChatGPT диагностицира случая на едно дете като причинен от киста на бранхиалната цепнатина - бучка в областта на шията или под ключицата - докато правилната диагноза е бранхио-рото-ренален синдром, генетично състояние, което причинява анормално развитие на тъканите в областта на шията и малформации в ушите и бъбреците. Един от признаците на състоянието е образуването на кисти на разклоненията на клоните.

Като цяло ChatGPT дава правилен отговор само в 17 от 100-те случая. В 72 случая той е бил очевидно грешен, а в останалите 11 случая не е уловил напълно диагнозата. Сред 83-те грешни диагнози 47 (57%) са в една и съща органна система.

Сред неуспехите изследователите отбелязаха, че ChatGPT се затруднява да открива известни връзки между състояния, които опитен лекар би могъл да забележи. Например в един медицински случай не е открил връзката между аутизма и скорбута (недостиг на витамин С). Невропсихиатричните състояния като аутизма могат да доведат до ограничаване на диетата, а това от своя страна може да доведе до недостиг на витамини. По този начин невропсихиатричните състояния са забележителни рискови фактори за развитие на витаминен дефицит при деца, живеещи в страни с високи доходи, и лекарите трябва да са нащрек за тях. Междувременно ChatGPT постави диагноза за рядко автоимунно заболяване.

Въпреки че чатботът се справи с този тест, изследователите предполагат, че той може да се подобри, ако бъде специално и селективно обучен на точна и надеждна медицинска литература, а не на неща от интернет, които могат да включват неточна информация и дезинформация. Те също така предполагат, че чатботовете биха могли да се подобрят с повече достъп в реално време до медицински данни, което би позволило на моделите да подобрят своята точност, описана като "настройка".

Снимка: Unsplash

Виж още: YouTube иска да помислите преди да публикувате хаплив или обиден коментар

Тагове: