Недавно группа американских учёных, разрабатывающих системы машинного зрения для робототехники, представила метод обучения генеративной 3D-модели, основанной на полях нейронного излучения. Система обучаема по алгоритмам исключительно на основе данных только с одним видом каждого объекта.
Хотя создание реалистичных изображений больше не является сложной задачей, создание соответствующей трёхмерной структуры, которую можно визуализировать с разных точек зрения, до сих пор остаётся нетривиальной задачей. В отличие от существующих методов, для достижения этой цели, системе не требуются многоракурсные данные. В частности, учёные показали, что, реконструируя множество изображений, выровненных по приблизительной канонической позе с помощью одной сети, обусловленной общим скрытым пространством, система может изучить пространство полей сияния, которое моделирует форму и внешний вид для класса объектов. Они демонстрируют то, как можно обучать модели реконструировать категории объектов, используя наборы данных, содержащие только одно представление каждого объекта без информации о глубине или геометрии. Эксперименты показывают, что таким решением достигаются самые современные результаты в синтезе новых видов и конкурентоспособных результатов для монокулярного предсказания глубины.
Давней задачей компьютерного зрения является извлечение трёхмерной геометрической информации из изображений реального мира. Понимание трёхмерной геометрии имеет решающее значение для понимания физической и семантической структуры объектов и сцен, но достижение такого результирующего эффекта остаётся очень сложной задачей. Работа в этой области в основном была сосредоточена либо на получении понимания геометрии с более чем одним срезом вида, либо на использовании известной геометрии при изучении геометрии с одним видом. Здесь используется более амбициозный подход, со стремлением получить эквивалентное трёхмерное понимание в генеративной модели только из отдельных видов объектов и не полагаться на явную геометрическую информацию, такую как глубина или облако точек. Однако добиться такого «понимания» в 3D не так уж и просто.
Хотя методы, основанные на Neural Radiance Field (NeRF), продемонстрировали большие перспективы в рендеринге на основе геометрии, они сосредоточены на изучении одной сцены из нескольких представлений.
Все существующие работы NeRF требуют контроля с более чем одной перспективы, так как без этого методы процесса склонны сворачиваться к плоскому представлению сцены, потому что у них нет стимула для создания объёмного представления. Это служит основным узким местом, поскольку данные с несколькими представлениями трудно получить. Таким образом, для обхода этого были разработаны архитектуры, которые объединяют NeRF и генеративно-состязательные сети (GAN), где согласованность с несколькими представлениями обеспечивается с помощью дискриминатора, чтобы избежать необходимости в обучающих данных с несколькими представлениями.
В результате работы учёные показали, что, как это ни удивительно, для обучения моделей NeRF без состязательного контроля, достаточно иметь только один вид класса объектов, если обучается общая генеративная модель и предоставляются приблизительные положения камеры. В двух словах, ограничение многоракурсности существующих работ больше не обязательно навязывать, и положения камер не должны быть точно зафиксированы для достижения убедительных результатов.
В сущности, грубо выравниваются все изображения в наборе данных с канонической позой, используя предсказанные 2D-ориентиры, которые затем используются для определения того, с какой точки зрения следует визуализировать поле яркости, чтобы воспроизвести исходное изображение. Для генеративной модели используется структура автодекодера. Чтобы улучшить обобщение, дополнительно обучается две модели: одну для переднего плана — общего класса объектов набора данных — и одну для фона, поскольку фон часто непостоянен во всех данных и, следовательно, вряд ли будет подвержен смещению трёхмерной согласованности. Также приходится, при формировании алгоритмов, моделировать формы как твёрдые поверхности (т. е. слегка обеспечивать резкость переходов от переднего плана к заднему), что ещё больше улучшает качество моделируемых форм.
Примечательным аспектом метода является то, что не требуется рендеринга целых изображений или даже патчей во время машинного обучения. В рамках автодекодера систему обучают для существующих моделей восстанавливать изображения из наборов данных и в то же время находить оптимальные скрытые представления для каждого изображения. Таким образом формируется цель, которую можно применить к отдельным пикселям. Следовательно, этот метод можно масштабировать до произвольных размеров изображения без увеличения требований к памяти во время обучения. Напротив, существующие методы, использующие GAN, контролируют межпиксельные отношения с помощью своих дискриминаторов, что значительно ограничивает или полностью препятствует их масштабированию в зависимости от разрешения обучающего изображения.
Подводя итог, можно сформулировать неоспоримые преимущество созданного алгоритма:
• предлагается масштабируемый метод обучения 3D-реконструкции категорий объектов из одноракурсных изображений;
• предлагается решение при котором одного вида достаточно для достижения самых современных результатов в прогнозировании геометрии (например, глубины) без какого-либо геометрического контроля;
• показывается, что данный метод превосходит состязательные методы в представлении внешнего вида объектов из изученной категории путём реконструкции протянутых изображений и новых видов.
Группа разработчиков поясняет, что в основу были положены три основные темы исследований, связанные с представленной:
1. 3D-морфируемые модели (3DMM).
Классические подходы к построению пространства формы были сосредоточены на параметризованных представлениях трёхмерных сеток, при этом большая часть таких работ была посвящена человеческим лицам. Эти модели обычно строятся на основе источников геометрической информации, таких как 3D-сканы или датчики глубины, которые обладают высокой точностью, но требуют значительных инвестиций в оборудование (например, запатентованная установка для захвата изображения или коммерчески доступные решения, предоставляемые 3DMD). Использование представлений в координатной трёхмерной сетке также ограничивает эти модели для приложений, таких как синтез новых видов, где такие явления, как волосы, не воспроизводятся должным образом. Напротив, вновь представленный подход имеет относительно неограниченные возможности, поскольку он позволяет получить гибкие объёмные представления непосредственно из изображений, снятых в неконтролируемых условиях.
2. Нейронные неявные представления.
Представление сцен в виде трёхмерных неявных полей оказалось успешным для ряда задач. Эти модели могут принимать различные формы, включая представление расстояния, занятости, изученных особенностей сцены и световых полей. Одно представление, в частности, было очень успешным в одновременном моделировании формы и внешнего вида: поля сияния. Модели Neural Radiance Field, известные как NeRF, используют поля плотности и яркости для анализа и обработки. Они особенно эффективны при изучении структуры 3D-сцены только по изображениям. Было предложено значительное количество расширений NeRF из числа некоторых известных успешных примеров: коды внешнего вида для каждого просмотра, обучение с несколькими разрешениями, совместная оптимизация камеры, априорные модели твёрдых поверхностей, деформируемые сцены, переменная топология и декомпозиция переднего и заднего плана. Формулировка NeRF с одной сценой также была расширена и подразделена на общие классы объектов с методами GAN, а впоследствии гибридизирована с ними, как в GNeRF GIRAFFE и StyleNeRF.
3. Формирование трёхмерного представления из одного кадра.
Давняя цель для машинного зрения заключалась в том, чтобы понять трехмерную структуру сцен и объектов из одного изображения. Во многих работах разработчики к решению этой проблемы подходили, закодировав связь между внешним видом и структурой, используя предварительное знание этой структуры в качестве наблюдения. Однако до недавнего времени проблема получения такой модели только из одноракурсных наблюдений оставалась очень сложной. Самые продвинутые, тем не менее, всё же смогли продемонстрировать, как можно вывести форму для категорий объектов, которые приблизительно симметричны.
Однако наиболее актуальной именно для этой работы была разработка методов на основе GAN, изучающие пространство форм, которые при визуализации создают распределение изображений, неотличимое от обучающего распределения. Этот подход эффективен при создании моделей с правдоподобной структурой, поскольку он накладывает неявное ограничение на несколько представлений, требуя, чтобы визуализация с любой точки зрения выглядела реалистично. К сожалению, это требует использования сетей дискриминаторов, которые очень неэффективны в сочетании с трёхмерными представлениями, использующими объёмные представления. Чтобы избежать этого ограничения, был применена реконструкция изображения напрямую с помощью более эффективного и масштабируемого процесса стохастической выборки.
Объёмный рендеринг требует параметров камеры, которые связывают каждый пиксель с лучом, используемым для вычисления точек выборки. В классическом NeRF камеры оцениваются по структуре на основе движения в наборе данных входного изображения. Для предложенного варианта использования с одним представлением это невозможно из-за неоднозначности глубины. Чтобы сделать данный метод совместимым с однопроекционными изображениями, был использован предварительно обученный сетевой модуль MediaPipe Face Mesh для извлечения двумерных ориентиров, которые появляются в согласованных местах для рассматриваемого класса объектов. Затем эти положения ориентиров сопоставляются с проекциями канонических положений трёхмерных ориентиров с оптимизацией методом наименьших квадратов «сопоставления формы», для получения приблизительной оценки параметров камеры.
Чтобы оценить точность изученной трёхмерной структуры, были проведены эксперименты по реконструкции изображений для синтезированных новых видов. Визуализируя эти новые виды, группа разработчиков выполняла подгонку изображений к отдельным кадрам из синхронизированного набора данных о лицах с несколькими представлениями (используя данные из Human Multiview Behavioral Imaging — HUMBI) и реконструируя изображения с использованием параметров камеры из других наземных изображений того же человека. В результате проведения серии опытных работ, было обнаружено, что новая модель обеспечивает значительно лучшую реконструкцию из новых видов, что указывает на то, что этот метод действительно лучше «изучил» трёхмерное пространство форм, чем -GAN (которое способно обобщать невидимые данные) и делает больше, чем просто воспроизводит изображение запроса из представления.
Представленная модель, также предсказывает значения глубины для изображений, используя набор данных 3DFAW, который предоставляет достоверные трёхмерные местоположения ключевых точек. Для этой задачи подгоняются скрытые коды из рассматриваемой модели к изображениям 3DFAW, что позволяет выбирать предсказанные значения глубины для каждого местоположения ориентира в пространстве изображения. В сущности, используется та же процедура, что и для вычисления корреляции предсказанных и реальных значений глубины. Хотя получаемый результат не так высок, как у самого эффективного неконтролируемого метода, он превосходит несколько контролируемых и неконтролируемых методов, специально разработанных для прогнозирования глубины.
Хотя это метод выдаёт очень качественные результаты при обучении на реальных данных, он по-прежнему пока сильно зависит от других методов извлечения семантической информации (например, ориентиров) о наблюдаемых объектах. Эта зависимость может привести к сбоям для объектов, где предполагаемое положение или сегментация неверны. Поиск метода достижения выравнивания без каких-либо предварительных знаний остаётся открытым вопросом для разработчиков машинного зрения и робототехников.
Кроме того, хотя предлагаемая структура автодекодера имеет много преимуществ по сравнению с GAN, она не обеспечивает такой же способности максимизировать «правдоподобие» визуализируемых изображений, что может привести к некоторой потере важных деталей. Возможным направлением будущей работы других инженеров и учёных может быть дополнение этого метода состязательным обучением, для дальнейшего улучшения качества восприятия изображений, воспроизводимых с помощью новых скрытых кодов.
Все исследования в области такой обработки изображений служат не только для использования в промышленных роботах, но и для коллаборативной робототехники. Они сосредоточены на социально полезных вариантах использования и в приложениях, где требуется распознавание лиц с некоторой долей идентификации. При правильной разработке генеративные модели могут делать это несколькими способами, в том числе моделировать разнообразную группу пользователей, повышая эффективность персональных данных, тем самым уменьшая потребность в крупномасштабном сборе данных (сохраняя конфиденциальность). Тем не менее, даже учёные-разработчики признают возможность неправомерного или неправедного использования таких систем, и важность ответственности по нераспространению для тоталитарных режимов, использующих достижения новейших технологий для слежки за согражданами. С этой целью, в данном случае, учёные заявили, что они готовы выпустить открытый код только для воспроизводимости результата (для обсуждения в профессиональной среде), но не откроют код для создания и обучения генеративной модели.
Иллюстрация к статье:
Обсуждение