Ако сте фирма, която обучава изкуствен интелект с голям езиков модел (LLM), и искате той да се учи от Reddit, скоро ще трябва да платите за това.
Стив Хъфман, основател и главен изпълнителен директор на социалния агрегатор за новини и дискусии Reddit, заяви наскоро пред The New York Times, че планира да таксува компаниите, които имат достъп до мрежата, за да изтеглят 18-годишното ѝ съдържание, генерирано предимно от хора.
API все още ще бъде безплатен за разработчици, работещи по ботове и други инструменти на Reddit, както и за изследователи, работещи по академични или некомерсиални проекти. Но простото използване на разговорите в Reddit за целите на обучението на изкуствен интелект ще има цена, чиито точни суми трябва да бъдат обявени през следващите седмици.
"Корпусът от данни на Reddit е наистина ценен", казва Хъфман пред Times. "Но не е необходимо да предоставяме цялата тази стойност на някои от най-големите компании в света безплатно.
"Претърсването на Reddit, генерирането на стойност и невръщането на никаква част от тази стойност на нашите потребители е нещо, с което имаме проблем. Това е добър момент за нас да затегнем нещата."
Коментарите и разговорите в Reddit са богат ресурс за обучение на изкуствения интелект на LLM. ChatGPT и Bard на Google цитират данни от Reddit като един от своите източници. В своя анализ на само едно подмножество (12 млн.) от набора от данни за генериране на изображения на Stable Diffusion (2.3 млрд.) Анди Байо и Саймън Уилисън отбелязват, че "платформите за съдържание, генерирано от потребителите, са огромен източник на данни за изображения". В разследване на общите източници на данни за много изкуствени интелекти, публикувано днес от The Washington Post, се отбелязва, че в GPT-3 е включена "компилация от текстове от връзки, високо оценени от потребителите на Reddit".
Въпреки че възнамерява да ограничи достъпа до ИИ, Reddit заяви, че планира да предостави на разработчиците и модераторите по-добри инструменти за работа в техните общности. Приложенията на Reddit за iOS и Android ще предлагат начини за бърз преглед на историята на даден потребител, актуализиране на правилата на общността и по-добра работа с множество опашки за модове.
Според The Information промяната на Reddit по отношение на достъпа до API идва в момент, когато платформата се стреми да стане публична през втората половина на 2023 г. Компанията поверително подаде заявление за първично публично предлагане през декември 2021 г. Според Ройтерс тя се е надявала на оценка от 15 млрд. долара, но е отложила подаването на документи, докато пазарните условия, особено около технологичните компании, се подобрят.
Снимка: Unsplash
Виж още: Microsoft разработва собствен AI чип