Платените чатботове са по-уверени в предоставянето на грешна информация

Tech

13.03.2025

Ако има един съвет, който трябва да се повторя отново и отново за чатботовете с изкуствен интелект, той е „Не ги използвайте за търсене на фактическа информация - не може да им се вярва, че са прави“.

Ново проучване показа мащаба на проблема, но същевременно демонстрира, че Apple е направила добър избор, като си е партнирала с ChatGPT на OpenAI за запитвания, на които Siri не може да отговори.

Съществуват два добре познати проблема при опитите да се използват LLM като ChatGPT, Gemini и Grok като заместител на уеб търсенията:

Те много често са грешни.
Много често те са доста уверени в грешната си информация.

Проучване, цитирано от Columbia Journalism Review, установи, че дори когато подскажете на чатбот точен цитат от журналистически материал и поискате подробности, повечето от тях грешат.

Центърът за дигитална журналистика Tow проведе тестове на осем чатбота с изкуствен интелект, които твърдят, че извършват търсене в интернет на живо, за да получат фактите си:

ChatGPT
Perplexity
Perplexity Pro
DeepSeek
Microsoft’s Copilot
Grok-2
Grok-3
Gemini

В проучването на всяка от системите беше представен цитат от статия и тя е помолена да изпълни проста задача: да намери тази статия онлайн и да предостави връзка към нея, заедно със заглавието, оригиналния издател и датата на публикуване.

За да се уверят, че това е изпълнима задача, авторите на проучването умишлено избраха откъси, които могат лесно да бъдат намерени в Google, като оригиналният източник е в първите три резултата. Чатботовете бяха оценявани според това дали са напълно правилни, правилни, но с липсваща част от исканата информация, частично неправилни, напълно неправилни или не могат да отговорят.

Те отбелязаха също така колко уверено чатботовете са представили своите резултати. Например дали просто са представили отговорите си като факт, или са използвали уточняващи фрази като „изглежда“ или са включили признание, че не са могли да намерят точно съвпадение за цитата?

Първо, повечето от чатботовете бяха частично или напълно неверни през повечето време. Средно системите с изкуствен интелект са били прави в по-малко от 40% от случаите. Най-точна беше Perplexity - 63%, а най-лоша беше Grok-3 на X - само 6%.

Други ключови констатации са:

Чатботовете като цяло не са били добри в това да отказват да отговарят на въпроси, на които не са могли да отговорят точно, като вместо това са предлагали неправилни или спекулативни отговори.

Платените чатботовете са предоставяли по-уверено неверни отговори, отколкото техните безплатни колеги.

Множество чатботове изглежда са заобикаляли Robot Exclusion Protocol.

Инструментите за генеративно търсене изфабрикуват връзки и цитират синдикирани и копирани версии на статии.

Сделките за лицензиране на съдържание с новинарски източници не дават гаранция за точно цитиране в отговорите на чатботовете.

Снимка: Unsplash

Виж още: Кръвта на дълголетниците може да даде ключа към тайната на продължителния живот

Тагове: