Послушайте, как «Мона Лиза» декламирует знаменитый монолог Шекспира: китайским инженерам удалось заставить фотографию петь и говорить с помощью искусственного интеллекта под названием Emote Portrait Live

Китайские инженеры из Института интеллектуальных вычислений Alibaba Group разработали приложение искусственного интеллекта под названием Emote Portrait Live, которое может анимировать фотографию лица и синхронизировать ее со звуковой дорожкой.
Технология, лежащая в основе этого, опирается на генеративные возможности моделей диффузии (математических моделей, используемых для описания того, как вещи распространяются или распространяются с течением времени), которые могут напрямую синтезировать видео голов персонажей из предоставленного изображения и аудиоклипа. Этот процесс позволяет избежать необходимости сложной предварительной обработки или промежуточных представлений, упрощая создание видео «говорящей головы».
Задача заключается в том, чтобы уловить нюансы и разнообразие движений лица человека во время синтеза видео. Традиционные методы упрощают это, накладывая ограничения на конечный видеовыход, например, используя 3D-модели для ограничения ориентиров лица или извлекая последовательности движений головы из базовых видеороликов для управления общим движением. Однако эти ограничения могут ограничить естественность и богатство получаемой мимики. Не без проблем
Цель исследовательской группы — разработать структуру «говорящей головы», которая сможет улавливать широкий спектр реалистичных выражений лица, включая тонкие микровыражения, и обеспечивать естественные движения головы.
Однако интеграция звука с моделями диффузии порождает свои проблемы из-за неоднозначной взаимосвязи между звуком и выражениями лица. Это может привести к нестабильности видео, создаваемых моделью, включая искажения лица или дрожание между видеокадрами. Чтобы преодолеть эту проблему, исследователи включили в свою модель стабильные контроллеры, в частности контроллер скорости и контроллер области лица, чтобы повысить стабильность в процессе генерации.
Несмотря на потенциал этой технологии, у нее есть определенные недостатки. Этот процесс требует больше времени, чем методы, не использующие диффузионные модели. Более того, поскольку нет явных управляющих сигналов, управляющих движением персонажа, модель может непреднамеренно генерировать другие части тела, например руки, что приводит к появлению артефактов в видео.
Группа опубликовала статью о его работе в области сервера препринтов arXiv, а на этом веб-сайте размещен ряд других видеороликов, демонстрирующих возможности Emote Portrait Live, включая отрывки с Хоакином Фениксом (в роли Джокера), Леонардо Ди Каприо и Одри Хепберн.
Вы можете увидеть, как Мона Лиза читает монолог Розалинды из Шекспира «Как вам это понравится», акт 3, сцена 2, ниже. Другие работы из Нью-Йорка Брейкинга

Статья добавлена ботом, с использованием машинного перевода : https://nybreaking.com/category/tech/

Понравилась статья? Поделиться с друзьями:
Интересно о полезном
Добавить комментарий

;-) :| :x :twisted: :smile: :shock: :sad: :roll: :razz: :oops: :o :mrgreen: :lol: :idea: :grin: :evil: :cry: :cool: :arrow: :???: :?: :!:

Этот сайт использует Akismet для борьбы со спамом. Узнайте, как обрабатываются ваши данные комментариев.