Модель, которая использует человеческие подсказки и эскизы для создания реалистичных модных образов.
Искусственный интеллект (ИИ) недавно начал проникать во многие творческие отрасли, например, в виде инструментов для цифровых художников, архитекторов, дизайнеров интерьеров и редакторов изображений. В этих условиях ИИ может автоматизировать утомительные или трудоемкие процессы, а также потенциально вдохновлять художников и облегчать их творческий процесс.
Исследователи из Университета Флоренции, Университета Модены и Реджо-Эмилии и Университета Пизы недавно приступили к изучению потенциала моделей ИИ в дизайне одежды . В статье, предварительно опубликованной на arXiv , они представили новую структуру компьютерного зрения, которая может помочь модельерам визуализировать свои модели, показывая им, как они могут выглядеть на человеческом теле .
Большинство прошлых исследований, посвященных использованию ИИ в индустрии моды, были сосредоточены на вычислительных инструментах, которые могут рекомендовать одежду, похожую на ту, которую выбрал пользователь, или модели, которые могут показать онлайн-покупателям, как одежда будет смотреться на их теле (например, виртуальные системы примерки). . Эта группа итальянских исследователей, с другой стороны, намеревалась разработать структуру, которая могла бы поддержать работу дизайнеров, показывая им, как разработанная ими одежда может выглядеть в реальной жизни, чтобы они могли найти новое вдохновение, выявить потенциальные проблемы и решить их. при необходимости изменить их дизайн.
«В отличие от предыдущих работ, которые в основном были сосредоточены на виртуальной примерке одежды, мы предлагаем задачу мультимодального условного редактирования изображений моды, направляя создание ориентированных на человека изображений моды, следуя мультимодальным подсказкам, таким как текст, позы человеческого тела, и эскизы одежды», — написали в своей статье Альберто Балдрати, Давиде Морелли и их коллеги.
«Мы решаем эту проблему, предлагая новую архитектуру, основанную на моделях скрытой диффузии, подход, который ранее не использовался в области моды».
Вместо использования генеративно-состязательных сетей (GAN), архитектуры искусственных нейронных сетей, которые часто используются для создания новых текстов или изображений, исследователи решили создать структуру, основанную на моделях скрытой диффузии или LDM. Поскольку они обучаются в сжатом и низкоразмерном скрытом пространстве, LDM могут создавать высококачественные синтетические изображения.
Хотя эти многообещающие модели применялись ко многим задачам, требующим создания искусственных изображений или видео, они редко использовались в контексте редактирования модных изображений. В большинстве предыдущих работ в этой области были представлены архитектуры на основе GAN, которые генерируют изображения более низкого качества, чем LDM.
Большинство существующих наборов данных для обучения моделей ИИ задачам дизайна одежды включают только изображения одежды с низким разрешением и не включают информацию, необходимую для создания изображений моды на основе текстовых подсказок и эскизов. Таким образом, для эффективного обучения своей модели Балдрати, Морелли и их коллегам пришлось сначала обновить существующие наборы данных или создать новые.
«Учитывая отсутствие существующих наборов данных, подходящих для этой задачи, мы также расширяем два существующих набора данных о моде, а именно Dress Code и VITON-HD, с помощью мультимодальных аннотаций, собираемых полуавтоматически», — объяснили Балдрати, Морелли и их коллеги в своей статье. . «Экспериментальные результаты с этими новыми наборами данных демонстрируют эффективность нашего предложения как с точки зрения реализма, так и согласованности с заданными мультимодальными входными данными».
В первоначальных оценках модель, созданная этой группой исследователей, дала очень многообещающие результаты, создав реалистичные изображения предметов одежды на человеческих телах, вдохновленных человеческими эскизами и конкретными текстовыми подсказками. Исходный код их модели и мультимодальные аннотации, которые они добавили в наборы данных, скоро будут опубликованы на GitHub.
В будущем эта новая модель может быть интегрирована в существующие или новые программные средства для модельеров. Это также может помочь в разработке других архитектур ИИ на основе LDM для реальных творческих приложений.
«Это одна из первых успешных попыток имитировать работу дизайнеров в творческом процессе дизайна одежды, и она может стать отправной точкой для постепенного внедрения моделей распространения в творческих индустриях под контролем человеческого участия», — Балдрати, Морелли и их коллеги . делают выводы коллеги в своей статье.
Теги: ИИ