Наука и технологии

Создание реалистичных «говорящих голов» с помощью программы на базе искусственного интеллекта

Published

26.04.2024

Создание реалистичных «говорящих голов» с помощью программы на базе искусственного интеллекта

Группа исследователей под руководством доцента Лу Шицзяна из Школы компьютерных наук и инженерии НТУ разработала компьютерную программу, которая создает реалистичные видеоролики, отражающие выражение лица и движения головы говорящего человека, для чего требуется только аудиоклип и фотография лица.

РАЗНООБРАЗНАЯ, но реалистичная анимация лица, или DIRFA, — это программа на основе искусственного интеллекта, которая записывает аудио и фотографии и создает 3D-видео, показывающее человека, демонстрирующего реалистичную и последовательную анимацию лица, синхронизированную с произнесенным звуком. Программа, разработанная НТУ, совершенствует существующие подходы, которые борются с вариациями поз и эмоциональным контролем.

Для этого команда обучила DIRFA более чем 1 миллиону аудиовизуальных клипов от более чем 6000 человек, полученных из базы данных с открытым исходным кодом, для прогнозирования реплик речи и связывания их с выражением лица и движениями головы.

Исследователи заявили, что DIRFA может привести к появлению новых приложений в различных отраслях и областях, включая здравоохранение, поскольку оно может создать более сложные и реалистичные виртуальные помощники и чат-боты, улучшая качество обслуживания пользователей. Он также может служить мощным инструментом для людей с нарушениями речи или лица, помогая им передавать свои мысли и эмоции через выразительные аватары или цифровые изображения, улучшая их способность общаться.

Автор-корреспондент, доцент Лу Шицзянь из Школы компьютерных наук и инженерии (SCSE) Сингапурского технического университета, который руководил исследованием, сказал: «Воздействие нашего исследования может быть глубоким и далеко идущим, поскольку оно производит революцию в сфере мультимедиа». коммуникации, позволяя создавать очень реалистичные видео разговоров людей, сочетая такие методы, как искусственный интеллект и машинное обучение.

«Наша программа также основана на предыдущих исследованиях и представляет собой прогресс в технологии, поскольку видеоролики, созданные с помощью нашей программы, наполнены точными движениями губ, яркой мимикой и естественными позами головы с использованием только аудиозаписей и статических изображений» .

Первый автор доктор У Жунлян, доктор философии. Выпускник SCSE НТУ, сказал: «Речь демонстрирует множество вариаций. Люди произносят одни и те же слова по-разному в разных контекстах, охватывая различия в продолжительности, амплитуде, тоне и т. д. Более того, помимо лингвистического содержания, речь передает богатую информацию о эмоциональное состояние говорящего и факторы идентичности, такие как пол, возраст, этническая принадлежность и даже черты личности.

«Наш подход представляет собой новаторскую попытку повысить производительность с точки зрения обучения представлению звука в искусственном интеллекте и машинном обучении». Доктор Ву — научный сотрудник Института исследований в области инфокоммуникаций Агентства по науке, технологиям и исследованиям (A*STAR), Сингапур.

Результаты были опубликованы в журнале Pattern Recognition.

Говоря громко: превращая звук в действие с анимированной точностью

Исследователи говорят, что создание реалистичных выражений лица с помощью звука представляет собой сложную задачу. Для данного аудиосигнала может быть множество возможных выражений лица, которые будут иметь смысл, и эти возможности могут увеличиваться при работе с последовательностью аудиосигналов с течением времени.

Поскольку звук обычно имеет сильные ассоциации с движениями губ, но более слабую связь с выражением лица и положением головы, команда стремилась создать говорящие лица, которые демонстрируют точную синхронизацию губ, насыщенную мимику и естественные движения головы, соответствующие предоставляемому звуку.

Чтобы решить эту проблему, команда сначала разработала свою модель искусственного интеллекта DIRFA, чтобы фиксировать сложные взаимосвязи между звуковыми сигналами и лицевой анимацией. Доцент Лу добавил: «В частности, DIRFA смоделировала вероятность лицевой анимации, такой как приподнятая бровь или сморщенный нос, на основе входного аудио. Это моделирование позволило программе преобразовать аудиовход в разнообразные, но очень реалистичные последовательности лиц. анимации, помогающие создавать говорящие лица.

«Обширные эксперименты показывают, что DIRFA может генерировать говорящие лица с точными движениями губ, яркой мимикой и естественными позами головы. Однако мы работаем над улучшением интерфейса программы, позволяя контролировать определенные выходные данные. Например, DIRFA не позволяет пользователям измените определенное выражение лица, например, заменив хмурое выражение лица улыбкой».

Помимо добавления дополнительных опций и улучшений в интерфейс DIRFA, исследователи NTU будут совершенствовать выражения лица с помощью более широкого диапазона наборов данных, которые включают более разнообразные выражения лица и голосовые аудиоклипы.

Создание реалистичных «говорящих голов» с помощью программы на базе искусственного интеллекта

Теги: ИИ

In this article:

Наука и технологии

Токсичность в сообществе открытого исходного кода отличается от других интернет-форумов

Тролли, ненавистники, флеймеры и другие уродливые персонажи, к сожалению, являются реальностью большей части Интернета. Их уродство разрушает социальные сети и такие сайты, как Reddit и...

localpodcast12.02.2024

Обнаружена лазейка в системе безопасности, позволяющая использовать Wi-Fi, чтобы видеть сквозь стены

Наука и технологии

Обнаружена лазейка в системе безопасности, позволяющая использовать Wi-Fi, чтобы видеть сквозь стены

Исследовательская группа из Университета Ватерлоо разработала устройство на базе дронов, которое может использовать сети Wi-Fi, чтобы видеть сквозь стены. Устройство по прозвищу Wi-Peep может...

localpodcast12.02.2024

Activision выплатит около млн для урегулирования иска

Наука и технологии

Activision выплатит около $50 млн для урегулирования иска

Гигант видеоигр Activision Blizzard намерен выплатить около 50 миллионов долларов для урегулирования иска калифорнийского регулятора, сообщило в пятницу сообщение американских новостей. В 2021 году...

localpodcast11.02.2024

Пенсия сестры Маликова: артистка будет получать выплаты в свои 44 года

Шоу-бизнес

Пенсия сестры Маликова: артистка будет получать выплаты в свои 44 года

Отец артистки Инны Маликовой рассказал о том, что его наследница будет получать пенсию, несмотря на ранний возраст — 44 года. Юрий Маликов подчеркнул, что...

localpodcast11.02.2024

localpodcast.ru

localpodcast.ru

Наука и технологии

Создание реалистичных «говорящих голов» с помощью программы на базе искусственного интеллекта

Говоря громко: превращая звук в действие с анимированной точностью

Trending

Наука и технологии

Токсичность в сообществе открытого исходного кода отличается от других интернет-форумов

Наука и технологии

Обнаружена лазейка в системе безопасности, позволяющая использовать Wi-Fi, чтобы видеть сквозь стены

Наука и технологии

Activision выплатит около $50 млн для урегулирования иска

Шоу-бизнес

Пенсия сестры Маликова: артистка будет получать выплаты в свои 44 года

Наука и технологии

Важный законопроект об ограничении майнинга криптовалют принят Законодательным собранием Нью-Йорка

You May Also Like

Наука и технологии

Токсичность в сообществе открытого исходного кода отличается от других интернет-форумов

Наука и технологии

Обнаружена лазейка в системе безопасности, позволяющая использовать Wi-Fi, чтобы видеть сквозь стены

Наука и технологии

Activision выплатит около $50 млн для урегулирования иска

Шоу-бизнес

Пенсия сестры Маликова: артистка будет получать выплаты в свои 44 года