Според информация на The New York Times OpenAI е преписала повече от един милион часа видеоклипове в YouTube, за да обучи GPT-4. Докладът идва само няколко дни след като главният изпълнителен директор на YouTube Нийл Мохан заяви, че транскрибирането на видеоклипове от YouTube за обучение на изкуствен интелект би било "явно нарушение" на правилата на компанията в интервю за Bloomberg.
"Когато един творец качва своя труд на нашата платформа, той има определени очаквания. Едно от тези очаквания е, че условията за ползване на услугите ще бъдат спазвани", каза Мохан в интервю за Bloomberg миналата седмица. "Но това не позволява да се изтеглят неща като транскрипции или видеоклипове."
В доклада на The New York Times се твърди, че според източниците членовете на екипа на OpenAI, включително президентът Грег Брокман, лично са помогнали за събирането на видеоклиповете в YouTube. В статията подробно се описва как OpenAI, както и много технологични компании изпитват затруднения при събирането на достатъчно данни за обучение на огромни модели на изкуствен интелект. Твърди се, че OpenAI е използвала Whisper, софтуера си за транскрипция на ИИ, за да събере повече данни за обучение на GPT-4, най-новия и най-добър модел, залегнал в основата на ChatGPT.
Докладът може да има огромни последици за OpenAI и за продължаващата битка на Google в челните редици на разработването на генеративен изкуствен интелект. Малко вероятно е Google да се измъкне, ако OpenAI използва нейното съдържание, за да направи ChatGPT още по-комплексен. Компанията обаче все още не е отправила подобни обвинения. В изявление за The Verge този уикенд говорител на Google само заяви, че е "видял непотвърдени доклади" за обучението на OpenAI.
Условията за ползване на услугите на YouTube забраняват на всеки потребител да сваля съдържание, включително да използва софтуер за това, освен ако няма ясно разрешение от компанията. YouTube също така забранява използването на видеосъдържание за всякакви "независими" употреби на услугата.
Главният технологичен директор на OpenAI Мира Мурати заяви, че "не е сигурна"дали видеоклиповете в YouTube са били използвани за обучение на модела за изкуствен интелект Sora на нейната компания за преобразуване на текст във видео, когато Wall Street Journal я попита през март. В доклада на The New York Times не се споменава нищо за Sora или за самите видеоклипове от YouTube. Колебанието ѝ да отговори на този въпрос обаче директно води до по-големи спекулации.
Снимка: Unsplash
Виж още: Любимият ни John - JCW и новият облик на Mini Countryman