Една от най-преследваните области в момента е разработването програми, произвеждащи изкуствена реч, която да звучи естествено, умно и разбираемо. Една от водещите компании пък е Google, а сега от нея идва и съобщението за новия им метод за обучение на невронни мрежи на име Tacotron 2. Целта на Tacotron 2 е да създаде реалистична реч от текст, който не изисква почти никакви познания по граматика. Новата технология е комбинация на най-доброто от предишните проекти на Google в областта: WaveNet и първия Tacotron.
WaveNet успя да произведе някакъв вид изкуствена реч на аудио файлове, която обаче остана абстрактна в много отношения. Програмата изискваше и огромно количество метаданни за конкретен език – произношение, лингвистични характеристики и др.
От своя страна първият Tacotron успя да създаде реч с по-високо качество, с по-добра интонация и ритъм, която обаче пак не се доближи достатъчно до продукт, който Google цели финално.
Новият метод Tacotron 2 използва текст, а също и преразкази на този текст, за да обработи и обобщи всички лингвистични правила, които иначе се предават на системите със специално въвеждане. След това текстът се трансфорфмира в звуков файл – спектрограма, в която се създават ритъм и акценти, звучащи по-естествено. Резултатът, част от който можете сами да чуете тук, е доста по-добър от всичко постигано до момента. Ритъмът е убедителен, а произношението, макар и малко натъртено, звучи по-естествено. За момента няма как да се контролира тонът на говорене. Обучението на подобни системи обаче напредва и подобни нови подходи, с повече постигнати тънкости, ще помогнат за интегрирането на такива методи.