
Години наред много хора предполагаха, че генерираната от изкуствен интелект реч винаги може да бъде разпозната по леко „фалшивите“ си качества.
Ново изследване от Лондонския университет „Кралица Мери“ оспорва това предположение, показвайки, че настоящата технология за глас с изкуствен интелект е достигнала ниво, при което „клонингите на гласове“ и дийпфейковете са почти неразличими от реалните записи.
В проучването участниците сравняват човешки гласове с две форми на синтетичен звук: клонирани гласове, предназначени да имитират реални говорители, и гласове, генерирани от LLM (големи езикови модели) система без специфични аналози.
Слушателите често се затрудняваха да различат двете, което предполага, че технологията е навлязла във фаза, в която реализмът, подобен на човешкия, вече не е стремеж, а реалност. Изследователският екип проучи не само дали участниците могат да различават синтетични от реални гласове, но и как ги възприемат.
Изненадващо, и двата вида генерирани от изкуствен интелект гласове бяха оценени като по-доминиращи от човешките, а в някои случаи бяха преценени като по-надеждни.
Д-р Надин Лаван, старши преподавател по психология в университета „Кралица Мери“ в Лондон, подчерта колко лесно и евтино екипът ѝ е създал тези гласови клонинги.
„Гласовете, генерирани от изкуствен интелект, са навсякъде около нас сега, беше само въпрос на време, когато технологията с изкуствен интелект започне да произвежда натуралистична, човешко звучаща реч. Процесът изискваше минимални експертни познания, само няколко минути гласови записи и почти никакви пари“, казва тя.
Тя счита, че лекотата на използване показва колко много е напреднала технологията за кратко време. Тази достъпност създава възможности в области като образование, комуникация и достъпност, където персонализираните синтетични гласове биха могли да подобрят ангажираността и обхвата. Точно както авторите на ИИ повдигат въпроси относно оригиналността, авторските права и злоупотребата, генерирането на глас с ИИ подтиква към дебати относно собствеността върху самоличността и съгласието.
Ако реалистично аудио може да се създаде само от кратък семпъл, рисковете от неоторизирано клониране стават трудни за игнориране. Тъй като инструментите с ИИ продължават да разширяват възможностите и достъпността си, предизвикателството ще бъде да се гарантира, че ползите се реализират, без да се отварят нови пътища за измама.
Разбирането на това как хората реагират на тези гласове е само първата стъпка в справянето с етичните, правните и социалните последици от технология, която вече не е футуристична, а е трайно присъстваща в ежедневието ни.
Снимка: Unsplash
Виж още: Китай прави лагер за роботи, в който да се учат на адаптация в реалния живот на хората