Изследователската организация Epoch AI пусна FrontierMath - нов математически бенчмарк, който се наложи в света на изкуствения интелект, тъй като съдържа стотици задачи на експертно ниво, които водещите модели на изкуствен интелект решават в по-малко от 2% от времето, според Epoch AI. Бенчмаркът тества езиковите модели на изкуствен интелект (като GPT-4o, който поддържа ChatGPT) срещу оригинални математически задачи, които обикновено изискват часове или дни за решаване от специалисти математици.
Резултатите от теста FrontierMath, разкрити в изследователски документ, представят ярка картина на ограниченията на настоящите модели на ИИ. Дори с достъп до средите на Python за тестване и проверка, най-добрите модели като Claude 3.5 Sonnet, GPT-4o, o1-preview и Gemini 1.5 Pro постигнаха изключително слаби резултати. Това контрастира с високите им резултати при по-прости математически тестове - много модели вече постигат резултати над 90 % при тестове като GSM8K и MATH.
Дизайнът на FrontierMath се различава от много съществуващи бенчмаркове за изкуствен интелект, тъй като наборът от задачи остава частен и непубликуван, за да се предотврати замърсяване на данните. Много съществуващи модели на ИИ са обучени върху други набори от тестови задачи, което позволява на моделите на ИИ лесно да решават задачите и да изглеждат по-общо способни, отколкото са в действителност. Много експерти цитират това като доказателство, че настоящите големи езикови модели (LLM) са слаби генералистични обучаеми.
Epoch AI твърди, че е разработила FrontierMath в сътрудничество с над 60 математици от водещи институции. Задачите са подложени на партньорска проверка, за да се провери правилността им и да се провери за двусмислици. Около 1 от 20 задачи са се нуждаели от корекции по време на процеса на преглед, което е съпоставимо с други големи бенчмаркове за машинно обучение.
Задачите в новия набор обхващат множество математически дисциплини - от изчислителна теория на числата до абстрактна алгебрична геометрия. Съобщава се, че те са трудни за решаване - наистина трудни.
Epoch AI позволи на носителите на медал „Фийлдс“ Терънс Тао и Тимъти Гауърс да прегледат части от бенчмарка.
„Те са изключително трудни“, казва Тао в обратната връзка, предоставена на Epoch. „Смятам, че в близко бъдеще по принцип единственият начин за решаването им, освен ако нямаме истински експерт в областта, е чрез комбинация от полуексперт като завършил студент в свързана област, може би съчетана с някаква комбинация от модерен ИИ и много други алгебрични пакети.“
За да се подпомогне проверката на верните отговори по време на тестването, задачите на FrontierMath трябва да имат отговори, които могат да се проверяват автоматично чрез изчисления, като точни цели числа или математически обекти. Дизайнерите са направили задачите „невъзможни за решаване с догадки“, като са изисквали големи числови отговори или сложни математически решения, с по-малко от 1% вероятност за правилно случайно предположение.
Организацията планира редовни оценки на моделите с изкуствен интелект спрямо еталона, като същевременно разширява набора от проблеми. Тя казва, че през следващите месеци ще публикува допълнителни примерни задачи, за да помогнат на изследователската общност да тества своите системи.
Снимка: Unsplash
Виж още: Следващият хит на Apple: умен стенен дисплей за умния ви дом