Отвъд завесата: Как поколения холивудски филми и сериали захранват ИИ алгоритмите

Social

Отвъд завесата: Как поколения холивудски филми и сериали захранват ИИ алгоритмите - и кой печели и кой губи от това

21.11.2024

Откакто генеративните чат ботове са в интернет, холивудските сценаристи се чудят дали работата им е била използвана за тяхното обучение. Чатботовете са удивително добри в това да владеят препратките към филми и компаниите изглежда ги обучават на всички налични източници.

Към момента много системи с изкуствен интелект са обучени върху работата на телевизионни и филмови сценаристи - от „Кръстникът“ и „Алф“ през повече от 53 000 други филма и 85 000 други телевизионни епизода: диалогът от всички е включен в набор от данни за обучение на ИИ, който е използван от Apple, Anthropic, Meta, Nvidia, Salesforce, Bloomberg и други компании. Подобен пакет включва сценарии от всеки филм, номиниран за най-добър филм от 1950 до 2016 г., най-малко 616 епизода на „Семейство Симпсън“, 170 епизода на Seinfeld, 45 епизода на „Туин Пийкс“ и всеки епизод на The Wire, The Sopranos и Breaking Bad. Той дори включва предварително написан диалог „на живо“ от излъчвания на Златен глобус и награди на Академията. Ако един чатбот може да имитира мафиот от криминално предаване или извънземно от ситкоми – или, което е по-притеснително, ако може да сглоби цели предавания, които иначе може да изискват стая от сценаристи, - данни като тези са част от причината за това.

Файловете в този набор от данни не са точно сценарии реплика по реплика и сцена по сцена. По-скоро те са субтитри, взети от уебсайт, наречен OpenSubtitles.org. Потребителите на сайта обикновено извличат субтитри от DVD, Blu-ray дискове и интернет потоци, използвайки софтуер за оптично разпознаване на символи (OCR). След това те качват резултатите на OpenSubtitles.org, който сега хоства повече от 9 милиона файла със субтитри на повече от 100 езика и диалекта. Въпреки че това може да изглежда като странен източник за данни за обучение на ИИ, субтитрите са ценни, защото са сурова форма на писмен диалог. Те съдържат ритмите и стиловете на устния разговор и позволяват на технологичните компании да разширят репертоара на генеративния ИИ отвъд академични текстове, журналистика и романи, всички от които също са били използвани за обучение на тези програми. Добре написаната реч е рядък ресурс в света на данните за обучение на ИИ и може да бъде особено ценна за обучение на чатботове да „говорят“ естествено.

Субтитрите са били използвани от Anthropic за обучение на неговия конкурент на ChatGPT с името Claude; от Meta за обучение на семейство LLM, наречено Open Pre-trained Transformer (OPT); от Apple за обучение на семейство LLM, които могат да работят на iPhone; и от Nvidia за обучение на LLM семейството NeMo Megatron. Също така данните са използвани от Salesforce, Bloomberg, EleutherAI, Databricks, Cerebras и различни други разработчици на ИИ за изграждане на най-малко 140 модела с отворен код, разпространявани в центъра за ИИ разработка Hugging Face. Много от тези модели биха могли потенциално да се използват, за да се конкурират с човешки автори, и те са изградени без разрешение от тези творци.

Две години след пускането на ChatGPT може да не е изненадващо, че творческата работа се използва без разрешение за захранване на ИИ продукти, и все пак идеята остава обезпокоителна за много артисти и професионалисти, които смятат, че техният занаят и препитание са застрашени от програми. Прозрачността обикновено е ниска: технологичните компании са склонни да не рекламират чия работа използват за обучение на своите продукти. Законосъобразността на обучението по произведения, защитени с авторски права, също остава открит въпрос. Многобройни съдебни дела са заведени срещу технологични компании от писатели, актьори, художници и издатели, които твърдят, че техните авторски права са били нарушени в процеса на обучение за ИИ.

OpenSubtitles може да бъде изтеглен от всеки, който знае къде да търси, но както при повечето набори от данни за ИИ обучение, не е лесно да се разбере какво има в него. Това е 14-гигабайтов текстов файл с кратки редове диалог без приписване на авторите му, което означава, че говорещият не е идентифициран. Няма начин да се каже къде свършва един филм и къде започва следващият, камо ли кои са филмите.

Истината обаче е една: субтитрите вече са в интернет и не може да се каже от колко независими генеративни ИИ програми са били използвани или колко „изкуствено“ писане са произвели тези програми, но сега поне знаем малко повече за това как работи системата.

Снимка: Unsplash

Виж още: HISENSE 65U7NQ: лидер сред Mini-LED телевизорите (ВИДЕО РЕВЮ)

Тагове: