Бумът на генеративния изкуствен интелект започна със зашеметяващия успех на ChatGPT в края на 2022 г. Днес всяка компания се опитва да използва технологията.
Както е известно, моделите на ИИ, които стоят зад тази технология, се изграждат с помощта на висококачествени набори от данни от милиони различни източници. Това са суровините за "обучение" на моделите, казано на езика на индустрията.
"Това е тайната история точно под повърхността на това, което се случва", каза бившият главен изпълнителен директор на Github Нат Фридман в неотдавнашно интервю с технологичния анализатор Бен Томпсън.
Графичните процесори на Nvidia пък са основният хардуер, необходим за обучението на моделите на ИИ.
"Но другият ключов вход са данните", каза Фридман. "Така че в момента под повърхността се случва сенчеста война за данни, в която най-големите лаборатории за ИИ харчат огромни суми пари, наистина огромни суми пари, за да придобият по-ценни токени, като или плащат на експерти да ги генерират, или работят чрез компании за етикетиране."
Но има един основен проблем: голяма част от тези данни за обучение са взети от интернет и са използвани без разрешение. Технологичните компании, жадни за още повече данни за обучението, си дават нови разрешения за използване на много повече от вашата информация.
Използването на информация, набавена от интернет, предизвика дебат за бъдещето на авторското право и лицензирането в този нов свят на изкуствения интелект. Онлайн общностите, основаващи се на споделянето на безплатна информация, също се разклащат. Защо да продължавате да споделяте онлайн, когато тези данни вероятно ще бъдат засмукани в модел на ИИ, който по-късно ще се окаже конкурент на вас?
Данни от Stack Overflow, популярен уебсайт за въпроси и отговори за кодиране, са използвани за обучение на модели на ИИ. През последните месеци трафикът към него спада, тъй като моделите на ИИ вече предлагат директно отговори на въпроси за кодиране, като отхвърлят необходимостта от посещение на сайта и задаване на въпроси.
Това, разбира се, предизвиква ответна реакция.
"Медийните компании започват да се събуждат и да осъзнават, че голяма част от тяхната информация е била открадната - вероятно и част от вашата", казва Марк Бениоф, главен изпълнителен директор на Salesforce и собственик на списание Time.
"За мен като собственик на медия това е сериозен проблем, тъй като отивам в моделите и намирам там материали от списание Time и си казвам: "Чакай малко, това е моето съдържание", добави той.
Все повече уебсайтове блокират уеб-краулерите, които са техническите инструменти, използвани за обхождане на мрежата и събиране на данни за обучение на модели на изкуствен интелект. GPTbot от създателя на ChatGPT OpenAI беше блокиран от над 15% от 100-те най-популярни уебсайта само за две седмици, включително Amazon и Quora, съобщи Insider през август.
От Reddit настояват пък да им се плати за данните, които са често срещан източник за обучение на модели на ИИ.
LexisNexis, водещ доставчик на правна информация, трябваше да предупреди клиентите си да не качват или споделят данните си с модели с изкуствен интелект и свързани с тях ботове.
Измеренията все повече се увеличават: над 8000 автори, сред които Маргарет Атууд и Джеймс Патерсън, подписаха отворено писмо, в което поискаха компенсация от компаниите за изкуствен интелект за това, че са използвали техни произведения за обучение на изкуствен интелект без разрешение. Сара Силвърман съди OpenAI и Meta, твърдейки, че са използвали нейната книга без компенсация или разрешение, за да обучават своите модели на ИИ.
Компаниите за изкуствен интелект реагират най-вече като се опитват да намалят правните рискове.
Meta и други технологични компании спряха да разкриват данните за обучение, които използват за обучение на модели на ИИ. Това отчасти се дължи на конкурентни съображения, но според наблюдатели се прави и за да се избегне правен риск.
Снимки: Unsplash
Виж още: ChatGPT не е толкова популярен, колкото мислят всички