В ново проучване се предупреждава, че системите с изкуствен интелект (ИИ) могат да погълнат цялото свободно знание в интернет още през 2026 г. Моделите на изкуствен интелект като GPT-4, който управлява ChatGPT, или Claude 3 Opus разчитат на многото трилиони думи, споделени онлайн, за да станат по-умни, но новите прогнози сочат, че те ще изчерпят запасите от публично достъпни данни някъде между 2026 и 2032 г.
Това означава, че за да създадат по-добри модели, технологичните компании ще трябва да започнат да търсят данни другаде. Това може да включва създаване на синтетични данни, обръщане към източници с по-ниско качество или, което е по-обезпокоително, използване на частни данни в сървърите, които съхраняват съобщения и имейли. Изследователите са публикували своите открития на 4 юни в сървъра за предпечатна подготовка arXiv.
"Ако чатботовете консумират всички налични данни и няма по-нататъшен напредък в ефективността на данните, бих очаквал да наблюдавам относителна стагнация в областта", казва пред Live Science първият автор на изследването Пабло Вилялобос, изследовател в изследователския институт Epoch AI. "Моделите ще се подобряват бавно с течение на времето, тъй като се откриват нови алгоритмични прозрения и естествено се произвеждат нови данни."
Данните за обучение подхранват растежа на системите за изкуствен интелект, като им позволяват да извличат все по-сложни модели, които да вграждат в невронните си мрежи. Например ChatGPT е обучена на около 570 GB текстови данни, които съдържат около 300 милиарда думи, взети от книги, онлайн статии, Wikipedia и други онлайн източници.
Алгоритмите, обучени върху недостатъчно или нискокачествени данни, дават несигурни резултати. AI Gemini на Google, който позорно препоръча на хората да добавят лепило към пиците си или да ядат камъни, получи някои от отговорите си от публикации в Reddit и статии от сатиричния уебсайт The Onion.
За да преценят колко текст има в интернет, изследователите използват уеб индекса на Google, като изчисляват, че в момента има около 250 милиарда уеб страници, съдържащи по 7000 байта текст на страница. След това са използвали последващи анализи на трафика по интернет протокол (IP) - потокът от данни в мрежата - и активността на потребителите онлайн, за да прогнозират нарастването на този наличен запас от данни.
Резултатите показаха, че висококачествената информация, взета от надеждни източници, ще бъде изчерпана най-късно до 2032 г., а нискокачествените езикови данни ще бъдат изчерпани между 2030 и 2050 г. Междувременно данните за изображения ще бъдат напълно изчерпани между 2030 и 2060 г.
Доказано е, че невронните мрежи се подобряват предсказуемо с увеличаването на наборите от данни - явление, наречено закон за невронното мащабиране. Следователно остава открит въпросът дали компаниите могат да подобрят ефективността на моделите, за да отчетат липсата на нови данни, или ако затворят кранчето, напредъкът ще се окаже в застой.
Въпреки това Вилялобос заяви, че изглежда малко вероятно недостигът на данни да попречи драматично на бъдещото развитие на моделите на изкуствен интелект.
Снимка: Unsplash
Виж още: Arm устройствата с Windows вече могат да подкарат над 1200 игри