NVIDIA представила ИИ, который генерирует видео с высоким разрешением по текстовому описанию - «Новости сети» » Новости мира Интернет
Huawei представила беспроводной роутер X3 Pro с уникальным дизайном - «Новости мира Интернет»
Huawei представила беспроводной роутер X3 Pro с уникальным дизайном - «Новости мира Интернет»
OpenAI модернизировала голосовой режим ChatGPT: теперь он работает прямо в чате - «Новости мира Интернет»
OpenAI модернизировала голосовой режим ChatGPT: теперь он работает прямо в чате - «Новости мира Интернет»
Яндекс и исследователи из МГУ разработали метод обучения ИИ сложным правилам русского языка - «Новости мира Интернет»
Яндекс и исследователи из МГУ разработали метод обучения ИИ сложным правилам русского языка - «Новости мира Интернет»
Разработчик создал сервис AirPosture для слежения за осанкой через AirPods - «Новости мира Интернет»
Разработчик создал сервис AirPosture для слежения за осанкой через AirPods - «Новости мира Интернет»
Alibaba выпустила открытую ИИ-модель Z-Image для генерации изображений - «Новости мира Интернет»
Alibaba выпустила открытую ИИ-модель Z-Image для генерации изображений - «Новости мира Интернет»
Assassin's Creed Shadows пошла по пути Cyberpunk 2077 — Ubisoft отменила второе дополнение к игре - «Новости сети»
Assassin's Creed Shadows пошла по пути Cyberpunk 2077 — Ubisoft отменила второе дополнение к игре - «Новости сети»
«С тех пор игра сильно изменилась»: Ubisoft отреагировала на утечку внутренней презентации ремейка Prince of Persia: The Sands of Time - «Новости сети»
«С тех пор игра сильно изменилась»: Ubisoft отреагировала на утечку внутренней презентации ремейка Prince of Persia: The Sands of Time - «Новости сети»
Google урезала бесплатный доступ к Gemini 3 Pro и Nano Banana Pro из-за «высокого спроса» - «Новости сети»
Google урезала бесплатный доступ к Gemini 3 Pro и Nano Banana Pro из-за «высокого спроса» - «Новости сети»
Аналитики раскрыли продажи Escape from Tarkov в Steam за первые две недели с релиза - «Новости сети»
Аналитики раскрыли продажи Escape from Tarkov в Steam за первые две недели с релиза - «Новости сети»
Так дальше продолжаться не может: штаб-квартира Nexperia призвала китайское подразделение возобновить поставки автомобильных чипов - «Новости сети»
Так дальше продолжаться не может: штаб-квартира Nexperia призвала китайское подразделение возобновить поставки автомобильных чипов - «Новости сети»
Новости мира Интернет » Новости » Новости мира Интернет » NVIDIA представила ИИ, который генерирует видео с высоким разрешением по текстовому описанию - «Новости сети»

NVIDIA представила свою ИИ-модель для превращения текста в видео под названием VideoLDM, разработанную в сотрудничестве с исследователями из Корнельского университета. Модель способна генерировать видео в разрешении до 2048 × 1280 пикселей с частотой 24 кадра и длительностью до 4,7 секунд на основе текстового описания.




NVIDIA представила ИИ, который генерирует видео с высоким разрешением по текстовому описанию - «Новости сети»


Источник изображений: NVIDIA



В основе модели лежат наработки нейросети Stable Diffusion. Решение NVIDIA имеет до 4,1 млрд параметров, но только 2,7 млрд из этих них использовали видео для тренировки. Это весьма скромно по меркам современных ИИ. Тем не менее, с помощью эффективного подхода к модели скрытой диффузии (LDM — Latent diffusion model) разработчики смогли создавать разнообразные и согласованные во времени видео высокого разрешения с весьма высоким качеством.



Исследователи выделяют следующие особенности данной модели: генерацию персонализированного видео и свёрточный синтез во времени. Временные слои, которые были обучены в VideoLDM для превращения текста в видео, вставляются в опорные сети LDM изображений, которые заранее точно настроены в наборе изображений DreamBooth. Временные слои обобщаются контрольными точками DreamBooth, что позволяет персонализировать преобразование текста в видео. Применяя изученные временные слои сверточно во времени, можно получить клипы чуть большей продолжительности с незначительным ухудшением качества.






Модель также способна генерировать видео сцен вождения. Видеоролики имеют разрешение 1024 × 512 точек и длительностью до 5 минут. Есть возможность моделирования конкретного сценария вождения, когда за основу берутся ограничивающие рамки для создания интересующей обстановки, синтезируется соответствующий начальный кадр, а затем создаются правдоподобные видеоролики. Помимо этого, модель может сделать мультимодальное прогнозирование сценариев движения, сгенерировав несколько правдоподобных развертываний на основе одного начального кадра.






Данная исследовательская работа является участником Конференции по машинному зрению и распознаванию образов, которая проходит в Ванкувере с 18 по 22 июня. Пока что представленная нейросеть является лишь исследовательским проектом и не ясно, когда что-то подобное NVIDIA выпустит в открытый доступ.


Цитирование статьи, картинки - фото скриншот - Rambler News Service.
Иллюстрация к статье - Яндекс. Картинки.
Есть вопросы. Напишите нам.
Общие правила  поведения на сайте.

NVIDIA представила свою ИИ-модель для превращения текста в видео под названием VideoLDM, разработанную в сотрудничестве с исследователями из Корнельского университета. Модель способна генерировать видео в разрешении до 2048 × 1280 пикселей с частотой 24 кадра и длительностью до 4,7 секунд на основе текстового описания. Источник изображений: NVIDIA В основе модели лежат наработки нейросети Stable Diffusion. Решение NVIDIA имеет до 4,1 млрд параметров, но только 2,7 млрд из этих них использовали видео для тренировки. Это весьма скромно по меркам современных ИИ. Тем не менее, с помощью эффективного подхода к модели скрытой диффузии (LDM — Latent diffusion model) разработчики смогли создавать разнообразные и согласованные во времени видео высокого разрешения с весьма высоким качеством. Исследователи выделяют следующие особенности данной модели: генерацию персонализированного видео и свёрточный синтез во времени. Временные слои, которые были обучены в VideoLDM для превращения текста в видео, вставляются в опорные сети LDM изображений, которые заранее точно настроены в наборе изображений DreamBooth. Временные слои обобщаются контрольными точками DreamBooth, что позволяет персонализировать преобразование текста в видео. Применяя изученные временные слои сверточно во времени, можно получить клипы чуть большей продолжительности с незначительным ухудшением качества. Модель также способна генерировать видео сцен вождения. Видеоролики имеют разрешение 1024 × 512 точек и длительностью до 5 минут. Есть возможность моделирования конкретного сценария вождения, когда за основу берутся ограничивающие рамки для создания интересующей обстановки, синтезируется соответствующий начальный кадр, а затем создаются правдоподобные видеоролики. Помимо этого, модель может сделать мультимодальное прогнозирование сценариев движения, сгенерировав несколько правдоподобных развертываний на основе одного начального кадра. Данная исследовательская работа является участником Конференции по машинному зрению и распознаванию образов, которая проходит в Ванкувере с 18 по 22 июня. Пока что представленная нейросеть является лишь исследовательским проектом и не ясно, когда что-то подобное NVIDIA выпустит в открытый доступ.

запостил(а)
Arnold
Вернуться назад
-1

Смотрите также

А что там на главной? )))



Комментарии )))