Генеративните изображения на Stable Diffusion вече могат да се анимират, съобщи разработчикът Stability AI. Компанията пусна в тестова предварителна версия нов продукт, наречен Stable Video Diffusion, който позволява на потребителите да създават видео от едно изображение.
Новият инструмент е пуснат под формата на два модела за преобразуване на изображения във видео, всеки от които може да генерира поредица от от 14 до 25 кадъра при разделителна способност 576×1024. Той е способен на синтез на няколко изгледа от един кадър с фина настройка на набори от данни с няколко изгледа. "Към момента на пускането им в техния основополагащ вид чрез външна оценка установихме, че тези модели превъзхождат водещите затворени модели в проучванията на потребителските предпочитания", заяви компанията, сравнявайки ги с платформите за преобразуване на текст във видео Runway и Pika Labs.
На този етап Stable Video Diffusion е достъпна само за изследователски цели, а не за реални или търговски приложения. Потенциалните потребители могат да се запишат в списъка на чакащите за достъп до "предстоящо уеб изживяване, включващо интерфейс за преобразуване на текст във видео", пише Stability AI. Инструментът ще покаже потенциални приложения в сектори, включващи реклама, образование, развлечения и др.
Образците, показани от компанията, изглеждат със сравнително високо качество, което съответства на конкурентните генеративни системи. Въпреки това алгоритъмът има някои ограничения, пишат от компанията, генерира сравнително кратки видеоклипове (по-малко от 4 секунди), няма перфектен фотореализъм, не може да прави движение на камерата освен бавни панорами, няма контрол на текста, не може да генерира четлив текст и може да не генерира правилно хора и лица.
Инструментът е бил обучен на набор от данни с милиони видеоклипове и след това е бил прецизиран на по-малък набор, като Stability AI казва само, че е използвал видеоклипове, които са били публично достъпни за изследователски цели. Произходът на набора от данни е важен, като се има предвид, че Stability AI наскоро беше съдена от Getty Images за това, че е използвала архивите ѝ с изображения без съответното разрешение.
Видеото е ключова цел за генериращия изкуствен интелект поради потенциала му да опрости създаването на съдържание. То обаче е и инструмент с най-голям потенциал за злоупотреби чрез дълбоки фалшификати, нарушения на авторските права и др. И за разлика от OpenAI с нейния продукт ChatGPT, Stability има по-малък успех в комерсиализирането на своя продукт Stable Diffusion и изгаря парични средства с висока скорост, отбелязва TechCrunch. Миналата седмица вицепрезидентът по аудио в Stability AI Ед Нютън-Рекс подаде оставка заради използването на съдържание, защитено с авторски права, за обучение на генеративни модели на изкуствен интелект.
Снимка: Unsplash/Stability AI
Виж още: NASA ще затвори четирима изследователи в симулирана марсианска база за една година