GenFusion: 재구성과 생성의 조화, 영상 기술의 새로운 지평을 열다
Sibo Wu 등이 개발한 GenFusion은 3D 재구성과 생성 모델의 격차를 해소하여 희소한 뷰나 마스크된 입력에서도 고품질 뷰 합성을 가능하게 하는 혁신적인 기술입니다. 순환 융합 파이프라인을 통해 모델을 지속적으로 개선하며, 다양한 분야에 혁신을 가져올 것으로 기대됩니다.

최근 3D 재구성과 생성 분야는 놀라운 발전을 이루며 고품질의 영상 합성 결과를 보여주고 있습니다. 하지만 이 두 분야 사이에는 상당한 차이가 존재합니다. 예를 들어, 확장성 있는 3D 장면 재구성에는 고밀도로 캡처된 뷰가 필요하지만, 3D 생성은 일반적으로 단일 뷰 또는 입력 없이도 가능합니다. 이러한 차이는 기술의 응용 범위를 크게 제한하는 요인이 됩니다.
Sibo Wu, Congrong Xu, Binbin Huang, Andreas Geiger, Anpei Chen 등이 발표한 논문 "GenFusion: Closing the Loop between Reconstruction and Generation via Videos"는 이러한 문제를 해결하기 위해 새로운 접근 방식을 제시합니다. 연구진은 3D 제약 조건과 생성적 사전 정보 간의 불일치가 이러한 현상의 원인이라고 지적하고, 이를 해결하기 위해 재구성 기반 비디오 확산 모델(reconstruction-driven video diffusion model) 을 제안합니다. 이 모델은 인공물이 발생하기 쉬운 RGB-D 렌더링을 기반으로 비디오 프레임을 조건화하는 학습을 수행합니다.
더 나아가, GenFusion은 순환 융합 파이프라인(cyclical fusion pipeline) 을 통해 생성 모델에서 복원된 프레임을 반복적으로 학습 데이터에 추가합니다. 이를 통해 점진적으로 모델을 확장하고, 기존 재구성 및 생성 파이프라인의 뷰포인트 포화 한계를 극복합니다.
연구진은 희소한 뷰와 마스크된 입력으로부터의 뷰 합성을 포함한 평가를 통해 GenFusion의 효과를 검증했습니다. 자세한 내용은 https://genfusion.sibowu.com에서 확인할 수 있습니다.
GenFusion의 핵심:
- 문제 인식: 3D 재구성과 생성 간의 조건화 차이 및 이로 인한 응용 제한
- 솔루션: 재구성 기반 비디오 확산 모델과 순환 융합 파이프라인을 활용한 새로운 접근 방식
- 결과: 희소한 뷰 또는 마스크된 입력에서도 고품질 뷰 합성 달성
GenFusion은 단순한 기술적 발전을 넘어, 3D 재구성과 생성 모델 간의 상호 작용을 강화하는 새로운 패러다임을 제시합니다. 이는 향후 AI 기반 영상 기술 발전에 중요한 영향을 미칠 것으로 예상됩니다. 자율주행, 가상현실, 3D 모델링 등 다양한 분야에서 혁신적인 변화를 가져올 가능성이 높습니다.
Reference
[arxiv] GenFusion: Closing the Loop between Reconstruction and Generation via Videos
Published: (Updated: )
Author: Sibo Wu, Congrong Xu, Binbin Huang, Andreas Geiger, Anpei Chen
http://arxiv.org/abs/2503.21219v2