3D 모델 생성의 혁명: 다중 뷰 확산 모델 증류 기술 DD3G


중국과학원 연구진이 개발한 DD3G는 다중 뷰 확산 모델을 3D 생성기에 증류하는 혁신적인 기술로, 기존 방식보다 우수한 일반화 성능과 속도를 제공합니다. 실시간 3D 모델 생성 및 고품질 콘텐츠 생성에 획기적인 발전을 가져올 것으로 기대됩니다.

related iamge

중국과학원 연구진(Hao Qin, Luyuan Chen, Ming Kong, Mengxu Lu, Qiang Zhu)이 발표한 획기적인 논문이 3D 모델 생성 분야에 새로운 지평을 열었습니다. DD3G (Distilling Multi-view Diffusion Models into 3D Generators) 라는 이 기술은 다중 뷰 확산 모델(MV-DM)의 방대한 시각 및 공간 정보를 3D 생성기에 효과적으로 증류하는 방법을 제시합니다.

기존의 3D 모델 생성 방식은 3D 데이터에만 의존하여 학습하는데 반해, DD3G는 MV-DM의 일반화된 미분 방정식(ODE) 궤적을 모방합니다. 이를 통해 3D 데이터로만 학습된 모델보다 훨씬 우수한 일반화 성능을 보입니다. 단순히 데이터를 모방하는 것이 아니라, 모델의 학습 과정 자체를 '증류'하는 셈입니다.

특히, 기존의 방법들이 가진 확률적 샘플링으로 인한 최적화 목표의 불일치 문제를 해결하기 위해, MV-DM과 3D 생성기의 표현 공간을 정렬하여 확률적 흐름을 효과적으로 전달하는 기술을 선보였습니다.

하지만, 확률적 흐름과 3D 가우시안의 다양한 속성들을 결합하는 것은 쉽지 않은 과제입니다. 연구진은 이 문제를 해결하기 위해 PEPD (Pattern Extraction and Progressive Decoding) 라는 새로운 생성기를 제안했습니다. PEPD는 단일 이미지를 0.06초라는 놀라운 속도로 3D 가우시안으로 변환합니다. 이는 실시간 응용 분야에 큰 가능성을 제시합니다.

또한, 지식 손실을 줄이고 부족한 뷰 정보 문제를 해결하기 위해, 명시적 및 암시적 검증을 통한 생성 샘플의 품질을 보장하는 결합 최적화 목표를 설계했습니다.

12만 개 이상의 고품질 RGBA 이미지를 활용하여 DD3G를 학습시켰으며, 다양한 합성 및 공개 데이터셋에서 그 효과를 검증했습니다. (프로젝트 페이지: https://qinbaigao.github.io/DD3G_project/)

DD3G는 3D 모델 생성 분야의 패러다임을 바꿀 잠재력을 지니고 있으며, 앞으로 다양한 응용 분야에서 활용될 것으로 기대됩니다. 특히, 실시간 3D 모델 생성 및 고품질 3D 콘텐츠 생성에 혁신적인 발전을 가져올 것으로 예상됩니다.


*이 기사는 AI가 생성한 내용으로, 일부 정보가 실제와 다를 수 있습니다. 정확한 확인을 위해 추가적인 검증을 권장드립니다.

Reference

[arxiv] Distilling Multi-view Diffusion Models into 3D Generators

Published:  (Updated: )

Author: Hao Qin, Luyuan Chen, Ming Kong, Mengxu Lu, Qiang Zhu

http://arxiv.org/abs/2504.00457v3