Группа исследователей под руководством доцента Лу Шицзяна из Школы компьютерных наук и инженерии НТУ разработала компьютерную программу, которая создает реалистичные видеоролики, отражающие выражение лица и движения головы говорящего человека, для чего требуется только аудиоклип и фотография лица.
РАЗНООБРАЗНАЯ, но реалистичная анимация лица, или DIRFA, — это программа на основе искусственного интеллекта, которая записывает аудио и фотографии и создает 3D-видео, показывающее человека, демонстрирующего реалистичную и последовательную анимацию лица, синхронизированную с произнесенным звуком. Программа, разработанная НТУ, совершенствует существующие подходы, которые борются с вариациями поз и эмоциональным контролем.
Для этого команда обучила DIRFA более чем 1 миллиону аудиовизуальных клипов от более чем 6000 человек, полученных из базы данных с открытым исходным кодом, для прогнозирования реплик речи и связывания их с выражением лица и движениями головы.
Исследователи заявили, что DIRFA может привести к появлению новых приложений в различных отраслях и областях, включая здравоохранение, поскольку оно может создать более сложные и реалистичные виртуальные помощники и чат-боты, улучшая качество обслуживания пользователей. Он также может служить мощным инструментом для людей с нарушениями речи или лица, помогая им передавать свои мысли и эмоции через выразительные аватары или цифровые изображения, улучшая их способность общаться.
Автор-корреспондент, доцент Лу Шицзянь из Школы компьютерных наук и инженерии (SCSE) Сингапурского технического университета, который руководил исследованием, сказал: «Воздействие нашего исследования может быть глубоким и далеко идущим, поскольку оно производит революцию в сфере мультимедиа». коммуникации, позволяя создавать очень реалистичные видео разговоров людей, сочетая такие методы, как искусственный интеллект и машинное обучение.
«Наша программа также основана на предыдущих исследованиях и представляет собой прогресс в технологии, поскольку видеоролики, созданные с помощью нашей программы, наполнены точными движениями губ, яркой мимикой и естественными позами головы с использованием только аудиозаписей и статических изображений» .
Первый автор доктор У Жунлян, доктор философии. Выпускник SCSE НТУ, сказал: «Речь демонстрирует множество вариаций. Люди произносят одни и те же слова по-разному в разных контекстах, охватывая различия в продолжительности, амплитуде, тоне и т. д. Более того, помимо лингвистического содержания, речь передает богатую информацию о эмоциональное состояние говорящего и факторы идентичности, такие как пол, возраст, этническая принадлежность и даже черты личности.
«Наш подход представляет собой новаторскую попытку повысить производительность с точки зрения обучения представлению звука в искусственном интеллекте и машинном обучении». Доктор Ву — научный сотрудник Института исследований в области инфокоммуникаций Агентства по науке, технологиям и исследованиям (A*STAR), Сингапур.
Результаты были опубликованы в журнале Pattern Recognition.
Говоря громко: превращая звук в действие с анимированной точностью
Исследователи говорят, что создание реалистичных выражений лица с помощью звука представляет собой сложную задачу. Для данного аудиосигнала может быть множество возможных выражений лица, которые будут иметь смысл, и эти возможности могут увеличиваться при работе с последовательностью аудиосигналов с течением времени.
Поскольку звук обычно имеет сильные ассоциации с движениями губ, но более слабую связь с выражением лица и положением головы, команда стремилась создать говорящие лица, которые демонстрируют точную синхронизацию губ, насыщенную мимику и естественные движения головы, соответствующие предоставляемому звуку.
Чтобы решить эту проблему, команда сначала разработала свою модель искусственного интеллекта DIRFA, чтобы фиксировать сложные взаимосвязи между звуковыми сигналами и лицевой анимацией. Доцент Лу добавил: «В частности, DIRFA смоделировала вероятность лицевой анимации, такой как приподнятая бровь или сморщенный нос, на основе входного аудио. Это моделирование позволило программе преобразовать аудиовход в разнообразные, но очень реалистичные последовательности лиц. анимации, помогающие создавать говорящие лица.
«Обширные эксперименты показывают, что DIRFA может генерировать говорящие лица с точными движениями губ, яркой мимикой и естественными позами головы. Однако мы работаем над улучшением интерфейса программы, позволяя контролировать определенные выходные данные. Например, DIRFA не позволяет пользователям измените определенное выражение лица, например, заменив хмурое выражение лица улыбкой».
Помимо добавления дополнительных опций и улучшений в интерфейс DIRFA, исследователи NTU будут совершенствовать выражения лица с помощью более широкого диапазона наборов данных, которые включают более разнообразные выражения лица и голосовые аудиоклипы.
Теги: ИИ
