Учени демонстрираха прототип на слушалки, които могат да наблюдават заобикалящата ги среда, да определят колко различни хора говорят и да превеждат всяка езикова нишка почти в реално време.

Системата, базирана на традиционни слушалки, е известна като Spatial Speech Translation и всъщност е създадена с помощта на готови компоненти от изследователи от Вашингтонския университет и се основава на предишната им работа, свързана с използването на слушалки за изолиране на един глас от групов разговор.

Старшият автор Шиам Голакота от Лабораторията за мобилен интелект на UW разказва, че устройството се състои от чифт шумопотискащи слушалки Sony SH-100XM4, съединени с чифт бинаурални слушалки Sonic Presence SP15C. Бинауралните слушалки са такива, които улавят звука по същия начин, както хората - от два различни източника.

Голакота казва, че след като микрофоните уловят звука, сигналът се подава към мобилно устройство, което изпълнява модели на невронни мрежи в реално време. В този случай екипът е използвал лаптоп, захранван от силициевия чип M2 на Apple, който може да работи с невронни мрежи. След това тази информация се преобразува и се връща обратно през слушалките със закъснение, което може да бъде 1 - 2 секунди, въпреки че при тестовете потребителите предпочитат 3 - 4 секунди закъснение, тъй като така системата прави по-малко грешки.

Системата не само е в състояние да разпознава различните гласове в групов разговор, но и запазва естествените ритми на речта, което прави преведената емисия да звучи много естествено. Освен това се адаптира, когато ползвателите се движат из стаята или въртят главите си, като използва изкуствен интелект, за да се ориентира в различните теми на разговора.

Понастоящем системата е обучена да използва разговорен испански, френски и немски език, но изследователите твърдят, че в крайна сметка тя ще може да работи с около 100 езика. В момента те работят върху подобряване на скоростта и точността на системата. Освен това са направили отворен кода, който захранва системата, така че и други да могат да експериментират с нея.

„Това е стъпка към премахването на езиковите бариери между културите“, заключава Голакота. „Така че, ако вървя по улицата в Мексико, въпреки че не говоря испански, мога да преведа гласовете на всички хора и да знам кой какво е казал.“

Можете да видите революционното устройство в действие в следващото видео.

Снимка: Unsplash/Shyam Gollakota

Виж още: Най-силното слънчево изригване за 2025 г. досега засегна комуникациите в Европа, Азия и Близкия изток

 

 

Тагове: