
Един от водещите в индустрията големи езикови модели е преминал успешно теста на Тюринг - дългогодишен барометър за интелигентност, подобна на човешката.
В ново проучване, което очаква рецензиране, изследователите съобщават, че в тристранна версия на теста на Тюринг, в която участниците разговарят едновременно с човек и изкуствен интелект и след това оценяват кой от тях е човек, моделът GPT-4.5 на OpenAI е признат за човек в 73% от случаите, когато му е наредено да се представи като личност. Това е значително повече от случайния шанс от 50 процента, което предполага, че тестът на Тюринг е категорично победен.
В изследването са оценени също така моделът LLama 3.1-405B на Meta, моделът GPT-4o на OpenAI и ранният чатбот, известен като ELIZA, разработен преди около осемдесет години.
„Хората не бяха по-добри в разграничаването на човек от GPT-4.5 и LLaMa (с подкана да се представи като личност)“, пише водещият автор Камерън Джоунс, изследовател в Лабораторията за език и познание на Калифорнийския университет в Сан Диего. „Версия 4.5 дори беше оценявана като човек значително по-често от действителните хора.“
Тестът на Тюринг е кръстен на британския математик и компютърен учен Алън Тюринг. През 1950 г. Тюринг предлага един от начините за оценка на интелигентността на машината, като я накара да води текстови разговори с разпитващ човек, който в същото време да води текстови разговор с друг човек извън полезрението му. Тюринг нарича това „игра на имитация“. Ако разпитващият не можеше да определи правилно кой от респондентите е компютърът и кой - човекът, това би подсказало на много общо ниво, че машината може да мисли като човек.
В последното проучване изследователите провеждат известния експеримент върху онлайн център. В продължение на осем кръга група от близо 300 участници беше разпределена на случаен принцип да бъде или разпитващ, или един от двамата разпитвани „свидетели“, като другият „свидетел“ беше чатбот.
Ключов момент тук е начинът, по който моделите с изкуствен интелект са били подготвени за теста. Един от видовете е подкана „без персона“, при която на ИИ се дават само основни инструкции: „Предстои ви да участвате в тест на Тюринг. Вашата цел е да убедите разпитващия, че сте човек“. За подкана „личност“, от друга страна, на ИИ е изрично казано да се превъплъти в конкретна личност, например млад човек, който е запознат с интернет и поп културата.
Тези инструкции направиха огромна разлика в резултатите. Без подканяне за „персона“ GPT-4.5 постигна общ процент на победа от едва 36%, което е значително по-ниско от 73-те процента на Turing. За сравнение GPT-4o, който захранва текущата версия на ChatGPT и не получава подсказки от персони, постигна още по-малко убедителни 21%. (По някакъв начин морално остарялата ELIZA малко надмина флагманския модел на OpenAI с 23% успеваемост.)
Резултатите са интригуващи, но колкото и да е възхваляван тестът на Тюринг в средите на ИИ и философията, той не е недвусмислено доказателство, че ИИ мисли като нас.
„Той не е замислен като буквален тест, който действително да се изпълнява на машината, а е по-скоро мисловен експеримент“, казва Франсоа Шоле, софтуерен инженер в Google, пред Nature през 2023 г.
При всичките си недостатъци LLM са майстори на разговора, обучени върху неизмеримо големи количества текст, съставен от хора. Дори и да се сблъскат с въпрос, който не разбират, LLM ще измислят правдоподобно звучащ отговор. Става все по-ясно, че чатботовете с изкуствен интелект умеят отлично да ни имитират - така че може би оценяването на тяхната съобразителност с „игра на имитация“ се превръща в малко спорен въпрос.
Снимка: Unsplash