Повечето от вас вероятно са преживели подобно нещо в някакъв момент. Задавате основен въпрос на Gemini, ChatGPT или друга ИИ платформа и започвате диалог с изкуствения интелект. В началото всичко върви добре, но с продължаването на чата ИИ асистентът започва да говори безсмислици. Може би отговорите му са малко неточни или напълно погрешни, а може би той напълно губи нишката и пренасочва разговора в друга посока. Изглежда, че се е появила някаква халюцинация и не можете да разберете какво точно не е наред.
Според ново проучване на Microsoft Research и Salesforce, в което са анализирани над 200 000 AI чата в GPT-4.1, Gemini 2.5 Pro, Claude 3.7 Sonnett, DeepSeek R1 и други, ИИ инструментите често „се губят в разговора“, когато се говори с тях продължително време на естествен език. Те често дават точни резултати при първоначалното ви запитване, но след това всичко се разпада.
Според проучването GPT-4.1 и Gemini 2.5 Pro постигат 90% успеваемост при основни команди, но производителността спада до 65% при по-сложни разговори с многократни отговори. В проучването се посочва, че докато производителността на ИИ модела спада с 15% при по-сложни заявки, ненадеждността се увеличава до 112%.
Ето един откъс от обширното проучване:
„При набора от задачи, върху които експериментирахме, наблюдавахме, че моделите, ангажирани в многократни, недостатъчно конкретизирани разговори, постигнаха средна производителност от 65% – спад с 25 пункта от производителността от 90% при еднократни разговори, когато получават цялата инструкция в началото на разговора. Забележително е, че наблюдаваме този спад в производителността дори в разговори с две обръщения и във всички LLM, които тестваме – от малки отворени тегла (LLama3.1-8B-Instruct) до най-модерните (Gemini 2.5 Pro)“.
Интересното е, че изследователите смятат, че моделите с изкуствен интелект се опитват да отговорят на въпроса ви още преди да сте го довършили, което води до преждевременни резултати, които са неточни и подвеждащи. Това подкрепя общоприетото мнение, че изкуственият интелект често се стреми да даде отговора, който смята, че искате, възможно най-бързо, вместо да се фокусира върху точността.
Освен това проучването сочи, че ИИ моделите изглежда използват първоначалния си отговор като основа за отговаряне на последващи въпроси дори когато темата е леко променена или първоначалният отговор е напълно неправилен. Проучването продължава, като посочва, че отговорите и реакциите на ИИ моделите са станали с 20% до 300% по-дълги при по-сложни и по-дълги разговори, което от своя страна е довело до повече халюцинации с продължаването на чата.
ИИ остава в центъра на вниманието на технологичната индустрия въпреки продължаващия недостиг на памет и предупрежденията на експертите, че това е балон, който може да се спука, тъй като не е достигнал нивата на приемане, необходими за оправдаване на изглеждащите безкрайни финансови инвестиции, които продължава да получава.
Снимка: Pexels