ИИ надхитри 30 топ математици на тайна среща, справяйки се за минути със задачи, за които им трябват седмици

HiEnd

14.07.2025

През един уикенд в средата на май се свиква необичайна и тайна математическа среща на високо ниво. Трийсет от най-известните математици в света пристигнаха в Бъркли, щата Калифорния, като някои от тях дойдоха чак от Великобритания. Членовете на групата се изправиха в двубой с „разсъждаващ“ чатбот, който трябваше да решава задачи, измислени от тях, за да се провери математическата му способност. След като в продължение на два дни задавали въпроси на бота на ниво професор, изследователите с изумление открили, че той е способен да отговори на някои от най-трудните за решаване задачи в света.

„Имам колеги, които буквално казаха, че тези модели се доближават до математическия гений“, казва Кен Оно, математик от Университета на Вирджиния и ръководител и съдия на срещата.

Въпросният чатбот се захранва от o4-mini, т.нар. разсъждаващ голям езиков модел (LLM). Той е обучен от OpenAI, за да може да прави изключително сложни изводи. Еквивалентът на Google, Gemini 2.5 Flash, има подобни способности. Подобно на LLM, които захранваха по-ранни версии на ChatGPT, o4-mini се учи да предсказва следващата дума в последователността. В сравнение с тези по-ранни LLMs обаче o4-mini и неговите еквиваленти са по-леки и по-пъргави модели, които се обучават върху специализирани набори от данни с по-силно подсилване от хора. Подходът води до създаването на чатбот, способен да навлиза много по-дълбоко в сложни математически проблеми, отколкото традиционните LLM.

За да проследи напредъка на o4-mini, OpenAI преди това възложи на Epoch AI, организация с нестопанска цел, която прави сравнителни анализи на LLM, да измисли 300 математически въпроса, чиито решения все още не са публикувани. Дори традиционните LLM могат да отговорят правилно на много сложни математически въпроси. И все пак, когато Epoch AI зададе на няколко такива модела тези въпроси, които се различаваха от тези, по които бяха обучени, най-успешните успяха да решат по-малко от 2 процента, което показва, че тези LLM нямат способността да разсъждават.

Но o4-mini ще се окаже много различен.

През септември 2024 г. Epoch AI наема Елиът Глейзър, който наскоро е завършил докторантурата си по математика, за да се присъедини към новото сътрудничество за бенчмарка, наречен FrontierMath. Проектът събираше нови въпроси на различни нива на трудност, като първите три нива обхващаха предизвикателства на ниво бакалавър, магистър и изследовател. До април 2025 г. Глейзър установи, че o4-mini може да реши около 20% от въпросите. След това той преминава към четвърто ниво: набор от въпроси, които биха били предизвикателство дори за академичен математик. Само малка група хора в света биха били способни да разработят такива въпроси, да не говорим за отговорите им. Участващите математици трябваше да подпишат споразумение за неразкриване на информация, което изисква от тях да общуват единствено чрез приложението за съобщения Signal. Други форми на контакт, като например традиционната електронна поща, потенциално биха могли да бъдат сканирани от LLM и по невнимание да го обучат, като по този начин замърсят набора от данни.

Всеки проблем, който o4-mini не можеше да реши, щеше да донесе на математика, който го е измислил, награда от 7500 долара. Групата напредва бавно и сигурно в намирането на въпроси, но Глейзър иска да ускори нещата, така че Epoch AI беше домакин на лична среща в събота, 17 май, и неделя, 18 май. На нея участниците трябва да финализират последната партида въпроси от предизвикателството. 30-те участници бяха разделени на групи по шест души. В продължение на два дни учените се състезаваха сами със себе си, за да измислят проблеми, които биха могли да решат, но които биха спънали разсъждаващия бот.

В неделя рано сутринта Оно се включи в Signal, за да предупреди останалите участници. „Не бях подготвен да се сблъскам с подобен LLM - казва той, - никога досега не бях виждал подобна аргументация в моделите. Това е поведение на един жив учен. Това е плашещо.“

Въпреки че групата в крайна сметка успява да намери 10 въпроса, които затрудняват бота, изследователите са изумени от това колко далеч е напреднал изкуственият интелект в рамките на една година. Оно оприличи това на работа със „силен сътрудник“. Янг Хуи Хе, математик в Лондонския институт за математически науки и ранен пионер в използването на ИИ в математиката, казва: „Това е, което би правил един много, много добър аспирант - всъщност дори повече от него.“

Освен това ботът беше много по-бърз от професионален математик, като му отнема само няколко минути, за да направи това, което на такъв експерт би отнело седмици или месеци.

Макар че спарингът с o4-mini беше вълнуващ, напредъкът му беше и тревожен. Оно и Хе изразяват загриженост, че на резултатите на o4-mini може да се вярва прекалено много. „Има доказателство чрез индукция, доказателство чрез противоречие и след това доказателство чрез сплашване“, казва Хе. „Ако кажете нещо с достатъчно авторитет, хората просто се плашат. Мисля, че o4-mini е овладял доказателството чрез сплашване; той казва всичко с толкова голяма увереност.“

В края на срещата групата започна да обмисля как би изглеждало бъдещето на математиците. Дискусиите се насочиха към неизбежното „пето ниво“ - въпроси, които дори най-добрите математици не могат да решат. Ако ИИ достигне това ниво, ролята на математиците ще претърпи рязка промяна. Например те могат да се пренасочат към просто задаване на въпроси и взаимодействие с разсъждаващи ботове, които да им помогнат да открият нови математически истини, по същия начин, както професорът работи с дипломантите. В този смисъл Оно прогнозира, че насърчаването на творчеството във висшето образование ще бъде ключов фактор за запазване на математиката за бъдещите поколения.

Снимка: Unsplash

Виж още: Superman постави рекорд по зрителски рейтинг в Rotten Tomatoes

Тагове: