Нейронный рендеринг: насколько низко вы можете уйти с точки зрения ввода?

Нейронныйрендерингнаскольконизковыможетеуйтисточкизренияввода

Вчера некоторые экстраординарные новые работы по синтезу нейронных изображений привлекли внимание и воображение Интернета, когда исследователи Intel представили новый метод

;

для повышения реалистичности синтетических изображений.

Система, как показано в видео от Intel, вмешивается непосредственно в конвейер изображений для видеоигры Grand Theft Auto V и автоматически улучшает изображения с помощью алгоритма синтеза изображений, обученного на сверточной нейронной сети (CNN) с использованием изображений реального мира из набора данных Mapillary и заменой менее реалистичного освещения и текстурирования игрового движка GTA. .

Комментаторы в широком диапазоне реакций в сообществах, таких как Reddit и Hacker News, утверждают не только, что нейронный рендеринг этого типа может эффективно заменить менее фотореалистичный результат традиционных игровых движков и VFX-уровня C GI, но этот процесс может быть достигнут с гораздо более простыми входными данными, чем было продемонстрировано в демонстрации Intel GTA5 – эффективно создавая «марионеточные» прокси-входы с очень реалистичными выходными данными.

Парные наборы данных

Этот принцип был продемонстрирован новым поколением систем GAN и кодировщиков / декодеров за последние три года, например, NVIDIA GauGAN , который генерирует фотореалистичные живописные изображения из грубых мазков.

Фактически этот принцип переворачивает традиционное использование семантической сегментации в компьютере. видение из пассивного метода, который позволяет машинным системам идентифицировать и изолировать наблюдаемые объекты в творческий ввод, где пользователь «рисует» фальшивую карту семантической сегментации, а система генерирует изображения, согласующиеся с отношениями, которые она понимает из га ving уже классифицировал и сегментировал определенную область, например пейзаж.

A фреймворк машинного обучения применяет семантическую сегментацию к различным внешним сценам, обеспечивая архитектурную парадигму, которая позволяет разрабатывать интерактивные системы, где пользователь рисует блок семантической сегментации и Система заполняет блок соответствующими изображениями из набора данных для конкретной предметной области, такого как немецкий набор Mapillary street view, используемый в демонстрации нейронного рендеринга Intel GTA5. Источник: http://ais.informatik.uni-freiburg.de/publications/papers/valada55 icra.pdf

Системы синтеза изображений парных наборов данных работают по принципу корреляции. семантические метки для двух наборов данных: богатый и полноценный набор изображений, созданный либо из реальных изображений (как с набором Mapillary, который использовался для улучшения GTA5 во вчерашней демонстрации Intel), либо из синтетических изображений, таких как изображения CGI.

Paired dataset examples for an image synthesis system designed to create neural-rendered characters from clumsy sketches. On the left, samples from the CGI dataset. Middle, corresponding samples from the 'sketch' dataset. Right, neural renders that have translated sketches back into high-quality images. Source: https://www.youtube.com/watch?v=miLIwQ7yPkA

Примеры парных наборов данных для системы синтеза изображений, предназначенной для создания персонажей с нейронным рендерингом из неуклюжих эскизов. Слева образцы из набора данных CGI. В центре соответствующие образцы из набора данных «эскиз». Верно, нейронный рендеринг, который преобразовал эскизы обратно в высококачественные изображения Источник: https://www.youtube.com/watch?v=miLIwQ7yPkA

Внешние среды относительно несложны при создании преобразований парных наборов данных такого типа, потому что выступы обычно довольно ограничены, топография имеет ограниченный диапазон отклонений, которые могут быть полностью зафиксированы в наборе данных, и мы не нужно заниматься созданием искусственных людей или вести переговоры в Страшной долине (пока).

Инвертирование карт сегментации

Google разработал анимированную версию схемы GauGAN, которая называется Бесконечная природа , способная намеренно «галлюцинировать» непрерывные и бесконечные вымышленные пейзажи, переводя поддельные семантические карты в фотореалистичные изображения с помощью NVIDIA SPADE Система заполнения:

Source: https://www.youtube.com/watch?v=oXUf6anNAtc

Источник: https://www.youtube.com/watch?v=oXUf6anNAtc

Тем не менее, Infinite Nature использует одиночное изображение в качестве отправной точки и просто использует SPADE. для закрашивания недостающих участков в последовательных кадрах, тогда как SPADE сам создает преобразования изображений непосредственно из карт сегментации.

Source: https://nvlabs.github.io/SPADE/

Source: https://nvlabs.github.io/SPADE/ Источник: https://nvlabs.github.io/SPADE/

Кажется, именно эта способность взволновала поклонников системы Intel Image Enhancement – возможность получения очень качественных фотореалистичных изображений даже в реальном времени (в конечном итоге) на основе чрезвычайно грубых исходных данных.

Замена текстур и Освещение с помощью нейронного рендеринга

В случае ввода GTA5 некоторые задались вопросом: Будет ли действительно необходимо в будущих системах нейронного рендеринга какое-либо дорогостоящее в вычислительном отношении процедурное и растровое текстурирование и освещение из выходных данных игрового движка, или же можно будет преобразовать входные данные с низким разрешением на каркасном уровне в фотореалистичное видео, которое превосходит возможности затенения, текстурирования и освещения игровых движков, создание гиперреалистичных сцен из ввода прокси-заполнителя.

Может показаться очевидным, что созданные игрой аспекты, такие как отражения, текстуры , и другие типы деталей окружающей среды являются важными источниками информации для системы нейронного рендеринга того типа, который был продемонстрирован Intel. Тем не менее, прошло несколько лет с тех пор, как NVIDIA UNIT (Unsupervised Image-to-image Translation Networks) продемонстрировал, что важен только домен, и что даже общие аспекты, такие как “ ночь или день ”, по сути, являются проблемами, которые нужно обрабатывать с помощью передачи стилей:

Day2NightImageTranslation – 141

Что касается требуемых входных данных, это потенциально оставляет только игровой движок необходимость создания базовой геометрии и физических симуляций, поскольку механизм нейронного рендеринга может перерисовать все остальные аспекты, синтезируя желаемое изображение из захваченного набора данных, используя семантические карты в качестве слоя интерпретации.

Система Intel улучшает полностью законченный и отрендеренный кадр из GTA5, с добавлением сегментации и оцененных карт глубины – двух аспектов, которые потенциально могут быть предоставлены напрямую урезанным игровым движком. Источник: https://www.youtube.com/watch?v=P1IcaBn3ej0

Подход Intel к нейронному рендерингу включает анализ полностью отрендеренных кадров из буферов GTA5, а на нейронную систему ложится дополнительная нагрузка по созданию обеих карт глубины. и карты сегментации. Поскольку карты глубины неявно доступны в традиционных 3D-конвейерах (и их создание менее требовательно, чем текстурирование, трассировка лучей или глобальное освещение), возможно, лучше использовать ресурсы, чтобы позволить игровому движку их обрабатывать.

Урезанный ввод для механизма нейронного рендеринга

текущая реализация сети улучшения изображений Intel, следовательно, может включать в себя большое количество избыточных вычислительных циклов, так как игровой движок генерирует дорогостоящие в вычислительном отношении текстурирование и освещение, которые в действительности не нужны механизму нейронного рендеринга. Система, похоже, была спроектирована таким образом не потому, что это обязательно оптимальный подход, а потому, что легче адаптировать механизм нейронного рендеринга к существующему конвейеру, чем создать новый игровой движок, оптимизированный для подхода нейронного рендеринга.

Наиболее экономичным использованием ресурсов в игровой системе такого рода может быть полное кооптирование графического процессора системой нейронного рендеринга с упрощенным вводом прокси-сервера, обрабатываемым CPU.

Кроме того, игровой движок мог легко создавать репрезентативные карты сегментации самостоятельно, отключая все затенение и освещение в своем выводе. Кроме того, он может предоставлять видео с гораздо более низким разрешением, чем обычно требуется, поскольку видео должно только широко представлять контент, а детали с высоким разрешением обрабатываются нейронным механизмом, что дополнительно освобождает локальные вычислительные ресурсы.

Предыдущая работа Intel ISL с сегментацией> Изображение

Прямой перевод сегментации в фотореалистичное видео далеко не гипотетический. В исследовать способный выполнять синтез городского видео непосредственно из семантической сегментации.

Сегментация Intel ISL для работы с изображениями из 2017. Источник: https://awesomeopensource.com/project/CQFIO/PhotographicImageSynthesis

Фактически, этот оригинальный 2021 конвейер был просто расширен, чтобы соответствовать полностью визуализированному выходу GTA5.

Синтез фотографических изображений с каскадными сетями уточнения

Нейронный рендеринг в VFX

Нейронный рендеринг из карт искусственной сегментации также кажется многообещающей технологией для VFX, с возможностью прямого перевода очень простых видеограмм непосредственно в готовые видеоматериалы с визуальными эффектами путем создания наборов данных для конкретных областей, взятых либо из моделей, либо из синтетических (CGI) изображений.

A hypothetical neural rendering system, where extensive coverage of each target object is abstracted into a contributing dataset, and where artificially-generated segmentation maps are used as the basis for full-resolution photorealistic output. Source: https://rossdawson.com/futurist/implications-of-ai/comprehensive-guide-ai-artificial-intelligence-visual-effects-vfx/ Гипотетическая система нейронного рендеринга, в которой обширный охват каждого целевого объекта абстрагируется в дополнительный набор данных и где искусственно созданные карты сегментации используются в качестве основа для фотореалистичного вывода в полном разрешении. Источник: https://rossdawson.com/futurist/ последствия-из-искусственного интеллекта / всеобъемлющее-руководство-искусственный интеллект-визуальные эффекты-vfx /

Разработка и внедрение таких систем сместили бы центр художественных усилий с интерпретирующего на репрезентативный рабочий процесс и подняли бы сбор данных на основе предметной области от вспомогательного до центрального роль в изобразительном искусстве.

Улучшение Улучшение фотореализма


Статья обновлена ​​4: 192 pm, чтобы добавить материал о Intel ISL исследовать.

Leave a comment

Your email address will not be published. Required fields are marked *

3 × three =