Baidu разкри, че разработва система за преобразуване на текст в реч, наречена Deep Voice, която е по-бърза и по-ефективна от Google WaveNet. От компанията твърдят, че Deep Voice може да бъде обучена да говори само за няколко часа, и то с минимално човешкото взаимодействие. Baidu също твърди, че системата може да синтезира речта така, че тя да звучи доста естествено и реалистично. За целта компанията използва техники за дълбоко обучение, за да конвертира текст във фенома, най-малката езикова единица на речта. След това софтуерът превръща тези фонеми във звуци. Системата преобразува например думата hello ("здравей") в (silence HH), (HH, EH), (EH, L), (L, OW), (OW, silence), преди тя да се произнесе.

И двете стъпки разчитат на дълбоко обучение и не се нуждаят от човешко участие. Въпреки това системата не контролира кои фонеми или срички са с ударение и колко дълго се произнасят. Точно тук се намесват специалистите на Baidu - те „превключват“ думите, за да променят емоцията, която искат да се предаде.

Разбира се, за това се изисква сериозна изчислителна мощност. Компютърът трябва да може да генерира думите, които ще се произнасят за 20 микросекунди, за да се имитира човешкото взаимодействие, обясняват изследователите на Baidu.

И все пак учените смятат, че синтезът на реч в реално време е възможен. Те вече са създали семпли и събират обратна връзка чрез Mechanical Turk на Amazon. Те искат по-голям брой хора да оценят качеството на услугата, а резултатите показват, че тя е с отлично качество.