Изследователите започват да разгадават една от най-големите мистерии зад езиковите модели на изкуствения интелект, които захранват инструменти за генериране на текст и изображения като DALL-E и ChatGPT.
От известно време насам експертите и учените, занимаващи се с машинно обучение, са забелязали нещо странно в големите езикови модели (LLM) като GPT-3 на OpenAI и LaMDA на Google: те са необяснимо добри в изпълнението на задачи, за които не са били специално обучени. Това е озадачаващ въпрос и е само един от примерите за това, че в повечето случаи е трудно, ако не и невъзможно да се обясни как даден модел на изкуствен интелект стига до своите резултати в най-малки подробности.
В проучване, публикувано в сървъра arXiv, изследователи от Масачузетския технологичен институт, Станфордския университет и Google изследват това "очевидно мистериозно" явление, което се нарича "обучение в контекста". Обикновено за да изпълнят нова задача, повечето модели за машинно обучение трябва да бъдат преквалифицирани върху нови данни - процес, който може да изисква от изследователите да въведат хиляди точки данни, за да получат желания резултат. С други думи досадно и отнемащо време начинание.
Но с обучението в контекст системата може да се научи да изпълнява надеждно нови задачи само от няколко примера, като по същество придобива нови умения в движение. След като получи подкана, езиковият модел може да вземе списък от команди и отговори и да създаде нови, често правилни прогнози за задача, за която не е бил изрично обучен. Подобно поведение е много добро предзнаменование за изследванията в областта на машинното обучение, а разкриването на начина и причините за него може да даде безценни сведения за това как езиковите модели учат и съхраняват информация.
Но каква е разликата в един модел, който се учи, а не просто запомня?
"Ученето е преплетено със съществуващите знания", казва пред Motherboard Екин Акюрек, водещ автор на изследването и докторант в MIT. "Ние показваме, че е възможно тези модели да се учат от примери в движение, без да се налага актуализация на параметрите, които прилагаме към модела."
Това означава, че моделът не просто копира данни за обучение, а вероятно се основава на предишни знания точно както биха направили хората и животните. Изследователите не са тествали теорията си с ChatGPT или с някой друг от популярните инструменти за машинно обучение; вместо това екипът на Акюрек е работил с по-малки модели и по-прости задачи. Но тъй като става въпрос за един и същ тип модел, работата им предлага поглед върху същността на други, по-известни системи.
Изследователите провеждат своя експеримент, като дават на модела синтетични данни или подкани, които програмата никога не е могла да види преди. Въпреки това езиковият модел е успял да обобщи и след това да екстраполира знания от тях, казва Акюрек. Това накара екипа да изкаже хипотезата, че моделите на изкуствен интелект, които проявяват учене в контекста, всъщност създават по-малки модели в себе си, за да постигнат нови задачи. Изследователите успяха да проверят теорията си, като анализираха трансформатор - модел на невронна мрежа, който прилага концепция, наречена "самовнимание", за да проследява връзките в последователни данни, като например думи в изречение.
Наблюдавайки го в действие, изследователите установили, че техният трансформатор може да напише свой собствен модел за машинно обучение в скритите си състояния или пространството между входния и изходния слой. Това предполага, че е възможно както теоретично, така и емпирично езиковите модели привидно да измислят сами "добре познати и широко изучавани алгоритми за обучение", казва Акюрек.
С други думи тези по-големи модели работят, като вътрешно създават и обучават по-малки, по-прости езикови модели. Концепцията е по-лесна за разбиране, ако си я представите като сценарий от типа "компютър вътре в компютъра".
За резултатите на екипа ученият по изкуствен интелект във Facebook Марк Люис заяви в изявление, че изследването е "стъпка към разбирането на това как моделите могат да учат по-сложни задачи и ще помогне на изследователите да разработят по-добри методи за обучение на езикови модели, за да подобрят още повече тяхното представяне".
Акюрек е съгласен, че езиковите модели като GPT-3 ще открият нови възможности за науката, но според него те вече са променили начина, по който хората извличат и обработват информация. Докато преди въвеждането на запитване в Google само извличаше информация и ние, хората, бяхме отговорни за избора на информацията, която най-добре обслужва това запитване, "сега GPT може да извлича информация от мрежата, но и да я обработва вместо вас", казва той пред Motherboard. "Ето защо е много важно да се научите как да подсказвате на тези модели за случаите с данни, които искате да решите."
Разбира се, оставянето на обработката на информацията на автоматизирани системи е свързано с всякакви нови проблеми. Изследователите на етиката на изкуствения интелект многократно са показвали как системи като ChatGPT възпроизвеждат сексистки и расистки предразсъдъци, които е трудно да се смекчат и невъзможно да се елиминират напълно. Мнозина твърдят, че просто не е възможно да се предотвратят тези вреди, когато моделите на AI се доближават до размера и сложността на нещо като GPT-3.
Въпреки че все още има много несигурност по отношение на това какво ще могат да постигнат бъдещите модели за обучение и дори какво могат да правят настоящите модели днес, в проучването се прави заключението, че обучението в контекст в крайна сметка може да се използва за решаване на много от проблемите, с които изследователите на машинното обучение несъмнено ще се сблъскат по пътя.
Снимка: Unsplash
Виж още: Бил Гейтс критикува онези, които се опитват да провокират AI