Първият ми досег с технология за гласови команди бе преди повече от 15 години, когато като студент станах горд собственик на мобилен телефон Sony Ericsson T20. Функцията тук бе съвсем проста: записваш на глас име на човек от телефонния указател, след което апаратът го набира, когато го произнесеш. Изглеждаше адски готино, когато работеше... стига да не си на шумно място или пък телефонът да не проявява капризи в разпознаването. Днес, във времето на Siri, Bixby и Alexa гласовите команди обхващат всичко - от телефони до умни хладилници. Но понякога могат да бъдат също толкова ненадеждни.
До края на този година само в Съединените щати потребителите ще закупят и ползват над 24.5 милиона устройства с гласови команди. Ако това се окаже вярно, то прогнозата на анализаторската компания ComScore е, че към 2020 г. половината от търсенията в мрежата ще са гласови, изведнъж не изглежда толкова нереална.
Но с разпространението на този нов тип начин на взаимодействие с технологията се появява един въпрос. Какво всъщност ще се случи с онези хора, които изведнъж се окажат неразбираеми за машините?
Ало, ало
За да накарате едно устройство да разпознава реч, най-напред ви трябват доста аудио проби. Първо учените и инженерите трябва да съберат хиляди различни човешки гласове, които говорят на най-различни теми. След това тези своеобразни тиради трябва да бъдат записани ръчно. Така получената комбинация от данни - аудио клипове и писмени извадки - позволява на машините да правят асоциации между звуци и думи. Онези фрази, които се срещат най-често, се превръщат в повтарящ се елемент в алгоритъма и основа за това, как машината се учи да разбере начина, по който говорим.
Но изкуственият интелект може да разпознае само онова, за което предварително е бил обучен да чува. Неговата гъвкавост зависи от разнообразието от акценти, произношения и диалекти, с които е запознат. В момента една определена ниша от технологични компании работи именно по натрупването на такива бази данни. Консорциумът за лингвистични данни към Университета на Пенсилвания поддържа подобен аудио регистър и го предоставя на частни разработчици и други учени. Може би най-известната подобна база данни се нарича Switchboard.
Switchboard води началото си от първата половина на 90-те години, когато компанията Texas Instruments започва да натрупва архив от гласови данни, които след това се използват за машинно обучение. По онова време подобни идеи на практика са нечувани дотогава, но учените се нуждаят от съдействието на голям брой хора, затова ги примамват по най-добрия за тях начин - с безплатни междуградски разговори. Всеки, който иска да участва набира даден номер и се свързва с непознат човек, за да обсъдят тема от общ интерес като спорт, грижи за децата и т.н. Така са записани над 2400 телефонни разговора между 543 души от всички краища на Съединените щати. Записите са с продължителност над 250 часа.
Време за ъпдейт
Години наред учените предполагат, че поради местоположението на Консорциума във Филаделфия, щата Пенсилвания, повечето акценти са северозападни. По-късно, когато записите се изследват отново обаче, се оказва, че разпределението е съвсем равномерно и обхваща всички региони на страната. Именно това е и най-ценното в Switchboard. Днес съществуват и други бази данни, но Switchboard си остава крайъгълен камък и основен елемент в системите за гласово разпознаване. Пример - както IBM, така и Microsoft използват именно Switchboard, за да тестват степените на отклонения и грешки в собствените си базирани на гласово разпознаване системи. Практически от тази база данни, събрана от малко над 500 души, водят началото си всички подобни системи.
Но сега сме 2017 г. и да базираш модерната гласова технология на толкова стара база данни неизбежно поставя основите на множество проблеми. Английският е най-популярният и използван език в света и поради това той се говори от огромен брой хора, не всички от които го имат за майчин език. Милиони професионалисти по цял свят ползват английски на работно ниво, но акцентът им пречи да бъдат разпознавани успешно от много гласови услуги. Ситуацията е сходна с тестовете на лекарства - то може и да е успешно приложено при няколкостотин пациенти, но това е тясна демографска извадка и когато го приложите на широката публика, дозата и ефектите невинаги ще са същите.
Разнообразието е ключово
Големите технологични компании трябва да мислят глобално, за да останат конкурентоспособни най-малкото защото по-голямата част от продажбите на смартфони се случва извън Съединените щати. Гиганти като Apple, Google и Amazon имат собствени и невинаги явни методи за събиране на лингвистични данни и акценти, които после внедряват в своите услуги. И колкото повече потребителите използват продуктите им, толкова повече обратната връзка помага за подобряването им, като например функцията Voice Training в Alexa. Дори когато големите компании все пак бележат успех в натрупването и усвояването на нови и по-специфични данни, пазарът и конкуренцията диктуват те да не споделят достиженията си с други, което пък допълнително забавя общия напредък. Така например, ако се позаинтересувате как се развиват гласовите технологии при някои от водещите играчи, Google просто ще ви пренасочи към блог на своята страница, докато Apple ще ви издекламира заученото PR послание, че Siri вече поддържа 21 езика в 36 страни. Amazon пък изобщо не споделя информация за това, как развива Alexa.
Не е случайно, че повечето усилия за модифициране на гласовата технология за нуждите на широк кръг акценти и езици се полагат извън Съединените щати. Китайската компания Baidu твърди, че нейният подход за обучение на машините да разпознават реч вече постига изключително висока точност на китайски и английски и вече работи по алгоритъм, който да разпознава локални диалекти и акценти. Remeeting пък е млада компания, която разработва собствена база данни, специализираща в разпознаване на английски, говорен от хора, за които не е роден език. Тук ще откриете испански, индийски и всякакви други акценти.
Въпрос на приоритет
Точно това е и най-голямата слабост на технологиите за гласово разпознаване, когато става въпрос за потребителска техника. Те обхващат преди всичко една представителна извадка от населението, която говори - условно казано - нормален, лесно разбираем английски, но не взимат предвид всички отклонения. В този смисъл проблемът за надеждността на един дигитален асистент е колкото технологичен, толкова и социален, защото една типична база данни от американски гласове например не включва достатъчно реч от бедни, необразовани, малцинствени и потребители от селскостопански региони.
Събирането на данни е скъп и бавен процес, поради което определени ключови демографски профили получават приоритет. Дискриминацията не е само технологична, но и чисто социална. Някои акценти в американския Юг започват да изчезват още през 60-те години на ХХ век и днес този говор носи тежка стигма, поради което хората са пренебрегвани или пък се опитват да променят акцента си. Но езикът винаги е бил и си остава основно средство за комуникация между хората, а скоро ще приеме тази роля и при общуването с машините. Често пъти, когато потребителите се обръщат към някой гласов асистент, те се опитват да ползват суха стандартна реч, в която липсват разговорни изрази. Или с други думи - реч, лишена от естественост и идентичност. Затова, ако не искаме да изневеряваме на себе си, не трябва да променяме начина, по който говорим. Трябва да научим техниката да ни разпознава по-добре.