Мы в Telegram
Добавить новость
ВСЕ новости СЕГОДНЯ
RSS.+ — история VIP в новостях News24 с календарным архивом. Все самые быстрые 24/7 новости в ежеминутном тематическом обновлении Life24 — на русском, и не только + Today24, а также тексты с озвучкой — в авторском разделе #123ru.net
Ria.city

Модель искусственного интеллекта VLOGGER от Google может создавать видео-аватары из фотографий — что может пойти не так?

Hleb.asia
36
google-2024-vlogger-spalsh-image.png

VLOGGER может сделать одну фотографию человека и создать клипы с высоким разрешением различной длины, с точным выражением лица и движениями тела в мгновение ока, выходя за рамки предыдущих типов программного обеспечения «говорящей головы».

Google

Сообщество искусственного интеллекта (ИИ) настолько хорошо научилось создавать фальшивые гифки (взгляните на Sora от OpenAI, представленную в прошлом месяце, с ее фантастическим полетом фантазии), что приходится задаться интеллектуальным и практическим вопросом: «Что?» Что нам делать со всеми этими видео?

также: OpenAI представляет свою модель преобразования текста в видео, и результаты потрясающие.

Управляйте ими с помощью нашего инструмента VLOGGER, ответили на этой неделе исследователь Google Энрике Корона и его коллеги. VLOGGER может создавать HD-видео разговаривающих людей на основе одного изображения. Самое главное, что VLOGGER может анимировать видео на основе образца речи, то есть технология может анимировать видео как контролируемое подобие человека – «аватар» высокого разрешения.

Этот инструмент дает возможность реализовать все виды творчества. На более простом уровне команда Corona предполагает, что VLOGGER может оказать большое влияние на аватары службы поддержки, поскольку более реалистично выглядящие искусственно говорящие люди могут «вырабатывать эмпатию». Они отмечают, что эта технология может «открыть совершенно новые варианты использования, такие как улучшение онлайн-коммуникации, образования или личных виртуальных помощников».

VLOGGER также может открыть новые горизонты в создании дипфейков, реалистичных изображений, которые говорят и делают то, чего реальный человек никогда бы не сделал. Команда Corona намерена учесть влияние VLOGGER на общество в дополнительных вспомогательных материалах. Однако этот материал недоступен На странице проекта на GitHub. ZDNET обратился в Corona с просьбой предоставить вспомогательные материалы, но на момент публикации не получил ответа.

также: Ученые говорят, что по мере распространения агентов ИИ риски также возрастают.

Как описано в официальном документе «ВЛОГГЕР: мультимодальное распространение для синтеза воплощенных аватаров», команда Corona стремится выйти за рамки неточностей современных аватаров. «Создание реалистичных видеороликов с участием людей по-прежнему сложно и пронизано артефактами», — пишет команда Corona.

Команда заметила, что аватары в видео часто отрезают тело и руки, показывая только лицо. VLOGGER может показывать полный торс движениями рук. Другие инструменты обычно имеют ограниченные вариации выражений лица и поз, обеспечивая лишь элементарную синхронизацию губ. VLOGGER может создавать «видео высокого разрешения движений головы и верхней части тела». […] Он демонстрирует широкое разнообразие выражений лица и жестов» и является «первым способом создания говорящих, анимированных людей с помощью речевого ввода».

Как объяснила исследовательская группа: «Именно автоматизация и поведенческий реализм [are] К чему мы стремимся в этой работе: VLOGGER — это мультимодальный интерфейс для воплощенного диалогового агента, оснащенный аудио- и анимированным визуальным представлением, отличающийся сложной мимикой и повышенным уровнем движений тела и предназначенный для поддержки естественного общения с человеком. пользователь.»

пример google-2024-vlogger

На основе одного изображения слева VLOGGER предсказывает, какие видеокадры справа должны сопровождать каждый момент аудиофайла говорящего человека, используя процесс, известный как «диффузия», а затем создает эти видеокадры с высокой скоростью. — качество определения.

Google

VLOGGER объединяет некоторые последние тенденции в глубоком обучении.

Мультимедиа объединяет множество режимов, которые инструменты искусственного интеллекта могут обрабатывать и синтезировать, включая текст, аудио, изображения и видео.

Большие языковые модели, такие как GPT-4 от OpenAI, позволяют использовать естественный язык в качестве входных данных для управления всеми видами действий, будь то создание абзацев текста, песни или изображения.

В последние годы исследователи также нашли множество способов создания реалистичных изображений и видео за счет улучшения «распространения». Этот термин пришел из молекулярной физики и описывает, как при повышении температуры молекулы вещества переходят от высокой концентрации в определенной области к более рассредоточенным. По аналогии, биты цифровой информации можно рассматривать как «разбросанные», чем больше они становятся некогерентными с цифровым шумом.

также: Перейдя к Gemini, вы обнаружите, что у искусственного интеллекта с открытым исходным кодом есть свои собственные видео-трюки.

ИИ развертывания вводит в изображение шум и реконструирует исходное изображение, чтобы обучить нейронную сеть находить правила, по которым оно было создано. Диффузия лежит в основе создания великолепных изображений в Stable Diffusion от Stability AI и DALL-E от OpenAI. Точно так же OpenAI создает отличные видеоролики в Sora.

Для VLOGGER команда Corona обучила нейронную сеть связывать голос говорящего с отдельными видеокадрами этого говорящего. Команда объединила процесс развертывания для восстановления видеокадра из звука, используя еще одну недавнюю инновацию — преобразователь.

Конвертер использует метод внимания для прогнозирования видеокадров на основе кадров, произошедших в прошлом, в сочетании со звуком. Прогнозируя действия, нейронная сеть учится отображать точные движения рук и тела, а также выражения лица, кадр за кадром, синхронно со звуком.

Последний шаг — использовать прогнозы этой первой нейронной сети для последующей генерации видеокадров высокого разрешения с использованием второй нейронной сети, которая также использует диффузию. Этот второй шаг также представляет собой высокую оценку в данных.

также: Генеративный ИИ не справляется с этой слишком распространенной способностью человеческого мышления.

Для создания изображений с высоким разрешением команда Corona собрала MENTOR — набор данных из 800 000 «личностей» из видео говорящих людей. MENTOR состоит из 2200 часов видео, которое, по утверждению команды, является «самым большим набором данных, использованным на сегодняшний день с точки зрения личности и длины», и в десять раз больше, чем предыдущие аналогичные наборы данных.

Авторы обнаружили, что они могут улучшить этот процесс с помощью последующего шага, называемого «тонкая настройка». Отправляя полное видео в VLOGGER, будучи «предварительно обученными» на MENTOR, они могут более реалистично уловить особенности движения головы человека, например моргание: «Путем точной настройки нашей модели диффузии с использованием большего количества данных в одном Видео». Для субъекта VLOGGER может научиться лучше фиксировать личность, например, когда на эталонном изображении закрыты глаза — процесс, который команда называет «персонализацией».

google-2024-vlogger-архитектура

Нейронная сеть VLOGGER представляет собой комбинацию двух разных нейронных сетей. Первый использует «замаскированное внимание» через преобразователь, чтобы предсказать, что должно произойти в видеокадре, на основе звука, исходящего из записанного усилителем аудиосигнала. Вторая нейронная сеть использует диффузию для создания статической последовательности видеокадров, используя движения тела и подсказки выражения лица из первой нейронной сети.

Google

Важнейший смысл этого подхода — соединения прогнозов в единой нейронной сети с изображениями с высоким разрешением — и что делает VLOGGER интересным — это то, что программное обеспечение не просто создает видео, как это делает Сора. ВЛОГГЕР ассоциирует это видео с контролируемыми действиями и выражениями лиц. Реалистичными видео можно манипулировать по мере их появления, как марионетками.

также: Генеральный директор Nvidia Дженсен Хуанг представляет семейство чипсетов нового поколения Blackwell на выставке GTC

«Наша цель — преодолеть разрыв между недавними усилиями по синтезу видео, которые позволяют создавать динамические видеоролики без контроля личности или позы, и контролируемыми методами генерации изображений», — написала команда Corona.

ВЛОГГЕР может быть не только голосовым аватаром, но также выполнять функции редактирования, например, изменять рот или глаза говорящего. Например, человека по умолчанию, который часто моргает в видео, можно изменить на моргающего мало или вообще не моргать. Способ разговора с широким ртом можно сузить до более отчетливых движений губ.

google-2024-vlogger-edited-videos.png

Достигнув способа управления видео высокой четкости с помощью аудиосигналов, VLOGGER открывает путь для манипуляций, таких как изменение движений губ говорящего в каждом сегменте видео, чтобы они отличались от исходного исходного видео.

Видеоблогер

Теперь, когда мы достигли нового уровня прогресса в моделировании человека, вопрос, на который команда Corona не ответила, заключается в том, чего миру следует ожидать от любого неправильного использования технологий. Легко представить, например, что политические деятели говорят что-то совершенно катастрофическое по поводу надвигающейся ядерной войны.

Предположительно, следующим этапом в этой аватарской игре станут нейронные сети, такие как 'Тест Войта-Кампфа«В фильме «Бегущий по лезвию» это может помочь сообществу выяснить, кто из них настоящие ораторы, а кто — просто фальшивки с удивительно живой моралью.



Все новости по теме на сегодня

Google в новостях



Музыкальные новости
Баста

Брейн присоединился к СКА. Баста выложил фото с ним: «Приветствуем Сергея в нашей большой семье»



Все новости 24/7

Game News

В Crescent Moon Games рассказали о будущем Legend of the Skyfish 2


Бизнес

Весь бизнес

Культура

Спорт

Политика

Общество

Авторы

Новости тенниса

ATP

Хачанов победил Шевченко во втором круге турнира ATP в Риме



Rss.Plus — реально независимые новости по темам (энциклопедический систематизированный навигатор "Википедия новостей 24/7" c ежеминутным тематическим мониторингом интернет-пространства) в форме аполитичного просветительского интернет-журнала на русском языке, без цензуры, на многоязычной международной веб-платформе 103news.com в содружестве с более чем 20 000 источников информации во всём мире, сайтом News-Life.pro, глобальными гео-проектами Ria.City и Moscow.Media под патронажем Russia24.pro с уникальным персонифицированным новостным разделом "Региональная власть РФ" без купюр и модерации, а также "VIP-скандалы" в двух цветовых вариантах "День - Ночь" (кнопка справа вверху). Эти новости увидят Ваши внуки (наша система обеспечивает вечное хранение опубликованной информации 24/7). Будьте честными сегодня, чтобы было не стыдно завтра.

Опубликовать свою новость в любом городе и регионе, а также на любом языке мира можно мгновенно — здесь


Ria.city

В День Пушкина театр кукол «Ульгэр» в райцентре Бурятии: Россия, Культура, Дети

Парк «Зеленый узел» на берегу Клязьмы в Павловском Посаде благоустроят в 2024 г

Оксана Федорова представила на выставке-форуме «Россия» премьеру фильма «Петербург Шаляпина и Рахманинова»

Вице-мэр Москвы Ракова рассказа о всплеске интереса школьников к колледжам

Новости России

Перевозки сельхозпродукции по ЖД проиндексируют

На этой неделе во Владимир привезут Казанскую икону Божией Матери

«Средняя по городу»: Лев Лещенко рассказал о своей пенсии

В Москве состоится премьера спектакля "Я люблю тебя, папа" о связи поколений

Экология в России и мире

Армяне в Великой Отечественной войне: Иван Георгиевич Магакьян

C 13 по 19 мая 2024 года проходит Неделя профилактики повышения артериального давления

Пенсионерка из Новосибирска пародирует звезд на фото, получается похоже и смешно

В День Пушкина театр кукол «Ульгэр» в райцентре Бурятии: Россия, Культура, Дети

Спорт в России и мире

Александрова не смогла обыграть Саснович и покинула турнир WTA-1000 в Риме

Азаренко вышла в 1/16 финала турнира WTA-1000 в Риме

Первая ракета мира Джокович получил бутылкой по голове после матча в Риме

Теннисист Хачанов вышел в третий круг "Мастерса" в Риме

Moscow.media

Сотрудник Центра лицензионно-разрешительной столичного главка Росгвардии рассказал о поисковых экспедициях

Портативный ТСД корпоративного класса Saotron RT-T70

Новая генная терапия успешно восстановила слух у глухого малыша

Компания Volkswagen окончательно откажется от моделей с индексом GTX

Новости Крыма на Sevpoisk.ru

Пианист-виртуоз Култышев исполнит редкие сочинения Баха и Брукнера на концерте в «Зарядье»

BLACKPINK и BTS включены в число артистов, участвующих в кампании бойкота?

Вадим Самойлов («Агата Кристи») выступит на фестивале «Окна Открой»!

На восстановление уйдет год: невеста Тимати пострадала на Мальдивах

Губернаторы России

Положительную динамику роста населения зафиксировали в ТиНАО

В Москве состоится премьера спектакля "Я люблю тебя, папа" о связи поколений

ВЗУ для будущих жителей ЖК «Пятницкие Луга» в Солнечногорске достроят летом

На этой неделе во Владимир привезут Казанскую икону Божией Матери


Все города России от А до Я

Персональные новости
ЦСКА

Гол Чалова с пенальти принес ЦСКА победу над «Зенитом» в матче РПЛ


BigPot.News — быстрые и самые свежие тематические новости об известных личностях в России, в Украине, в Беларусии, в Казахстане и за их пределами в календарном формате 24/7 на основе авторской технологичной информационно-поисковой системы Smi24.net с элементами искусственного интеллекта, гео-отбора и возможностью мгновенной публикации авторского контента в категориях News и Life в режиме Free Public



Больше новостей СЕГОДНЯ


RSS.plus — СРОЧНЫЕ новости. Неоспоримое преимущество RSS.plus — максимальная скорость публикаций 24/7. Быстрее нас, СЕЙЧАС, лишь только — ВЕТЕР Сайт создан под патронажем Россия24.pro — непрерывные новости из регионов 24/7 на русском + новости Москвы от Moscow.Media и мировые новости от Smi24.net и партнёров в календарном формате (вчера, сегодня и сейчас) совместно с 123ru.net и платформой СМИ24.net по технологии 103 NEWS

Опубликовать свою новость в любом городе и регионе, а также на любом языке мира можно мгновенно — здесь







Rss.plus