Понастоящем всеки, който следи изследванията в областта на изкуствения интелект, отдавна е запознат с генеративните модели, които могат да синтезират реч или мелодична музика само въз основа на текст. Новооткритият модел Fugatto на Nvidia изглежда ще отиде още по-далеч, като използва нови синтетични методи за обучение и техники за комбиниране на ниво извод, за да „трансформира всякаква комбинация от музика, гласове и звуци“, включително синтез на звуци, които никога не са съществували.

Макар че Fugatto все още не е достъпен за публично тестване, изпълненият с образци уебсайт демонстрира как Fugatto може да се използва за набиране на редица различни звукови характеристики и описания, в резултат на което се получава всичко - от звук от лай на саксофони до хора, говорещи под вода, и сирени на линейки, пеещи в своеобразен хор. Макар че показаните резултати могат да бъдат малко неуспешни, огромният набор от възможности, показани тук, помага да се подкрепи описанието на Fugatto от Nvidia като „швейцарско ножче за звук“.

В обяснителен изследователски документ повече от дузина изследователи на Nvidia обясняват трудностите при създаването на набор от данни за обучение, който може да „разкрие значими връзки между аудио и език“. Докато стандартните езикови модели често могат да направят извод за това как да се обработват различни инструкции от самите текстови данни, може да е трудно да се обобщят описания и характеристики от аудио без по-ясни указания.

За тази цел изследователите започват с използването на LLM, за да генерират скрипт на Python, който може да създава голям брой шаблони и инструкции в свободна форма, описващи различни аудио „личности“ (например „стандартни, млади хора, тридесет и няколко годишни, професионалисти“). След това те генерират набор от абсолютни (напр. „синтезирай щастлив глас“) и относителни (напр. „увеличи щастието в този глас“) инструкции, които могат да бъдат приложени към тези персони.

Широката гама от набори от аудио данни с отворен код, използвани като основа за Fugatto, обикновено нямат такива видове измервания на черти, вградени в тях по подразбиране. Но изследователите използват съществуващи модели за разбиране на аудио, за да създават „синтетични надписи“ за обучителните си клипове въз основа на техните подкани, като създават описания на естествен език, които могат автоматично да определят количествено черти като пол, емоции и качество на речта. Използват се и инструменти за обработка на звук, за да се опишат и определят количествено учебните клипове на по-акустично ниво (например „вариация на основната честота“ или „реверберация“).

За сравнителни сравнения изследователите разчитат на набори от данни, в които един фактор се поддържа постоянен, а друг се променя, например различни емоционални прочити на един и същ текст или различни инструменти, свирещи на едни и същи ноти. Като сравнява тези образци в достатъчно голям набор от данни, моделът може да започне да научава какви видове аудио характеристики са склонни да се появяват в „по-щастлива“ реч, например, или да разграничава звука на саксофон и флейта.

След като подложили на този процес различни аудиоколекции с отворен код, изследователите се сдобили със силно анотиран набор от данни, състоящ се от 20 милиона отделни проби, представляващи поне 50 000 часа аудио. Оттам нататък набор от 32 тензорни ядра на Nvidia беше използван за създаване на модел с 2,5 милиарда параметри, който започна да показва надеждни резултати при различни тестове за качество на звука.

Снимка: Unsplash

Виж още: Китайските хакери се готвят за дигитален конфликт със САЩ