Покрай отчайващите финансови отчети на Meta една друга новина не получи необходимото внимание миналата седмица. Според съобщението компанията е готова с базирания на AI метод за аудио компресия, наречен EnCodec. Неговите възможности би трябвало да доведат до 10 пъти по-малка компресия в сравнение с MP3 формата при 64 kbps без загуба на качество. Аудиофилската черта във всеки от нас почти се развълнува, но се оказа, че акцентът е друг: според компанията тази техника може драстично да подобри качеството на звука на речта при връзки с ниска честотна лента, като телефонни обаждания в райони с неравностойно обслужване. Е добре, еднакво приложима е и за музика, но това идва на втори план.

Meta описва своя метод като система от три части, обучена да компресира аудио до желан целеви размер. Първо, енкодерът трансформира некомпресираните данни в представяне на „латентно пространство“ с по-ниска кадрова честота. След това quantizer компресира представянето до целевия размер, като същевременно следи най-важната информация, която по-късно ще бъде използвана за възстановяване на оригиналния сигнал. (Този компресиран сигнал е това, което се изпраща през мрежа или се записва на диск.) Накрая декодерът превръща компресираните данни обратно в аудио в реално време, използвайки невронна мрежа на един процесор. Сложното обяснение на Meta гласи: „Ключът към компресирането със загуба е да се идентифицират промени, които няма да бъдат забележими от хората, тъй като перфектната реконструкция е невъзможна при ниски битрейтове. За да направим това, ние използваме дискриминатори, за да подобрим възприемащото качество на генерираните проби. Това създава игра на котка и мишка, където работата на дискриминатора е да прави разлика между реални проби и реконструирани проби. Моделът на компресия се опитва да генерира проби, за да заблуди дискриминаторите, като натиска реконструираните проби да бъдат по-перцептивно подобни на оригиналните“.
Използването на невронна мрежа за аудио компресия и декомпресия далеч не е нещо ново, но изследователите от Meta твърдят, че са първата група, която е приложила технологията към 48 kHz стерео аудио. Що се отнася до приложенията, компанията твърди, че тази задвижвана от AI „хиперкомпресия на аудио“ може да поддържа „по-бързи разговори с по-добро качество“ при лоши мрежови условия. Не на последно място компресията е приложима в още една сфера - да осигури „богати преживявания в метавселената“. Не е ясно кога ще чуем постигнатото, понеже проектът е все още в изследователска фаза, но със сигурност това е добра новина за бъдещето на стрийминг съдържанието.  

Снимки: Unsplash

Виж още: Meta пак се ядоса на Apple