В быстро развивающемся мире крупномасштабных вычислений появление революционного достижения, способного встряхнуть сферу 3D-визуализации, было лишь вопросом времени.
Adobe Research и Австралийский национальный университет (ANU) анонсировали первую модель искусственного интеллекта , способную генерировать 3D-изображения из одного 2D-изображения.
Исследователи говорят, что их новый алгоритм, который обучается на массивных выборках изображений, может изменить процесс создания 3D-моделей и способен генерировать такие 3D-изображения за считанные секунды.
Иконг Хонг, стажер Adobe и бывший аспирант Колледжа инженерии, вычислительной техники и кибернетики АНУ, сказал, что их модель большой реконструкции (LRM) основана на хорошо масштабируемой нейронной сети, содержащей один миллион наборов данных с 500 миллионами параметров. Такие наборы данных включают изображения, 3D-фигуры и видео.
«Такое сочетание высокопроизводительной модели и крупномасштабных обучающих данных позволяет нашей модели быть легко обобщаемой и создавать высококачественные 3D-реконструкции на основе различных входных данных тестирования», — сказал Хонг, ведущий автор отчета о проекте.
«Насколько нам известно, [наша] LRM — это первая крупномасштабная модель 3D-реконструкции».
Можно ожидать, что системы дополненной и виртуальной реальности , игры, кинематографическая анимация и промышленный дизайн извлекут выгоду из преобразующей технологии.
Раннее программное обеспечение для 3D-изображений хорошо себя зарекомендовало только в определенных предметных категориях с заранее установленными формами. Хонг объяснил, что более поздние успехи в создании изображений были достигнуты с помощью таких программ, как DALL-E и Stable Diffusion, которые «использовали замечательные возможности обобщения 2D-моделей диффузии для обеспечения возможности создания нескольких изображений». Однако результаты этих программ ограничивались предварительно обученными 2D-генеративными моделями.
Другие системы использовали оптимизацию по форме для достижения впечатляющих результатов, но, по словам Хонга, они «часто медленны и непрактичны».
По словам Хонга, эволюция моделей естественного языка в массивных трансформаторных сетях, которые использовали крупномасштабные данные для максимизации задач прогнозирования следующего слова, побудила его команду задаться вопросом: «Можно ли изучить общую трехмерную модель, прежде чем реконструировать объект из одно изображение ?»
Их ответ был «Да».
«LRM может реконструировать высокоточные 3D-фигуры из широкого спектра изображений, снятых в реальном мире, а также изображений, созданных с помощью генеративных моделей», — сказал Хонг. «LRM также является очень практичным решением для последующих приложений, поскольку оно может создать трехмерную форму всего за пять секунд без последующей оптимизации».
Успех программы заключается в ее способности использовать базу данных с миллионами параметров изображений и прогнозировать поле нейронного излучения (NeRF). Это способность создавать реалистичные 3D-изображения исключительно на основе 2D-изображений, даже если эти изображения имеют низкое разрешение. NeRF обладает возможностями синтеза изображений, обнаружения объектов и сегментации изображений.
60 лет назад была создана первая компьютерная программа, которая позволяла пользователям создавать простые трехмерные формы и манипулировать ими. Альбом для рисования, разработанный Иваном Сазерлендом в рамках его докторской диссертации. диссертацию в Массачусетском технологическом институте, имел в общей сложности 64 КБ памяти.
На протяжении десятилетий 3D-программы стремительно росли благодаря таким программам, как AutoCAD, 3D Studio, SoftImage 3D, RenderMan и Maya.
Статья Хонга «LRM: Большая модель реконструкции одного изображения в 3D» была загружена на сервер препринтов arXiv 8 ноября.
Теги: ИИ, приложение