Тази седмица OpenAI обяви Sora - чисто нов модел, който генерира видеоклипове с висока разделителна способност с дължина до една минута от текстови подсказки. Sora, което на японски означава "небе", скоро няма да бъде достъпен за широката публика. Вместо това OpenAI го предоставя на малка група учени и изследователи, които ще оценят вредата и потенциала му за злоупотреба.
"Sora е в състояние да генерира сложни сцени с множество герои, специфични видове движение и точни детайли на обекта и фона", заяви компанията на своя уебсайт. "Моделът разбира не само какво е поискал потребителят в подкана, но и как тези неща съществуват във физическия свят."
Един от видеоклиповете, генерирани от Sora, които OpenAI сподели на уебсайта си, показва двойка, която се разхожда из заснежен град Токио, докато около тях се реят листенца от черешови цветове и снежинки.
От OpenAI твърдят, че моделът работи в резултат на "дълбоко разбиране на езика", което му позволява да интерпретира точно текстовите подкани. Въпреки това, както всички генератори на изображения и видеоклипове с изкуствен интелект, които сме виждали, Sora не е съвършена технология. В един от примерите подканването, което изисква видеоклип с далматинец, гледащ през прозореца, и хора, които "се разхождат и карат колело по улиците на канала", пропуска изцяло хората и улиците във видеоклипа. OpenAI също така предупреждава, че моделът може да има проблеми с разбирането на причините и следствията - той може да генерира видеоклип на човек, който яде бисквитка например, но бисквитката може да няма следи от захапване.
Sora не е първият модел за преобразуване на текст във видео. Други компании, сред които Meta, Google и Runway, или са се подигравали с инструментите за преобразуване на текст във видео, или са ги направили достъпни за обществеността. Все пак към момента никой друг инструмент не е в състояние да генерира видеоклипове с дължина 60 секунди. Sora също така генерира цели видеоклипове наведнъж, вместо да ги сглобява кадър по кадър, както другите модели, което гарантира, че субектите във видеоклипа остават същите, дори когато временно не се виждат.
Възходът на инструментите за преобразуване на текст във видео предизвика опасения относно потенциала им за по-лесно създаване на реалистично изглеждащи фалшиви кадри.
"Абсолютно се ужасявам, че подобни неща ще повлияят на изборите, които се провеждат на косъм от победата", казва пред The New York Times Орен Етциони, професор във Вашингтонския университет, който специализира в областта на изкуствения интелект, и основател на True Media, организация, която работи за идентифициране на дезинформацията в политическите кампании. И в по-широк план генеративният изкуствен интелект предизвика отпор от страна на артисти и творчески специалисти, загрижени, че технологията се използва за заместване на работни места.
Снимка: OpenAI
Виж още: Този хибриден самолетен дизайн може да направи полетите по-евтини от билетче в трамвая