단일 이미지로 3D 현실을 창조하다: Scene Splatter의 놀라운 기술
Scene Splatter는 모멘텀 기반 비디오 확산 모델을 이용하여 단일 이미지로부터 고품질의 일관된 3D 장면을 생성하는 새로운 기술입니다. 잠재 및 픽셀 수준 모멘텀을 결합하여 기존 모델의 한계를 극복하고, 반복적인 3D 장면 복구를 통해 영상 길이 제한을 해결했습니다. 다양한 분야에 혁신적인 변화를 가져올 것으로 기대됩니다.

중국과학원의 연구진(Shengjun Zhang, Jinzhao Li, Xin Fei, Hao Liu, Yueqi Duan)이 발표한 논문 "Scene Splatter: Momentum 3D Scene Generation from Single Image with Video Diffusion Model"은 단일 이미지를 사용하여 3D 장면을 생성하는 혁신적인 기술을 소개합니다. 기존의 영상 생성 모델들은 짧은 영상 길이와 장면 불일치 문제로 인해 생성된 장면에 인공적인 흔적이나 왜곡이 발생하는 한계를 가지고 있었습니다.
하지만 Scene Splatter는 이러한 문제를 해결하기 위해 모멘텀(Momentum) 기반의 새로운 패러다임을 제시합니다. 모멘텀은 원본 특징으로부터 생성된 노이즈 샘플을 활용하여 영상의 디테일을 향상시키고 장면의 일관성을 유지하는 역할을 합니다. 특히, 알려진 영역과 알려지지 않은 영역 모두를 포함하는 잠재 특징에 대해서는 잠재 수준의 모멘텀을 사용하여 생성 능력을 강화합니다.
그러나 잠재 수준 모멘텀만으로는 알려지지 않은 영역의 복원에 한계가 있기 때문에, 연구진은 추가적으로 픽셀 수준 모멘텀을 도입했습니다. 이를 통해 모멘텀 없이 생성된 영상에 픽셀 수준 모멘텀을 적용하여 미지 영역의 복원 성능을 획기적으로 개선했습니다. 이처럼 잠재 수준과 픽셀 수준 모멘텀을 결합한 캐스케이드 모멘텀은 고품질이면서 일관성 있는 새로운 뷰(view)를 생성하는 데 기여합니다.
더 나아가, 연구진은 향상된 프레임을 사용하여 전역 가우시안 표현을 미세 조정하고, 새로운 프레임을 렌더링하여 다음 단계의 모멘텀 업데이트에 활용합니다. 이러한 반복적인 과정을 통해 영상 길이 제한 없이 3D 장면을 복구할 수 있습니다. 실험 결과, Scene Splatter는 고품질 및 일관성 있는 장면 생성에서 뛰어난 성능과 일반화 능력을 보여주었습니다.
Scene Splatter는 단일 이미지에서 3D 장면을 생성하는 새로운 가능성을 제시하며, 향후 가상현실, 증강현실, 게임 등 다양한 분야에 혁신적인 변화를 가져올 것으로 기대됩니다. 이 기술의 발전은 우리가 현실 세계를 넘어 상상의 세계를 자유롭게 구현하는 시대를 앞당길 것입니다.
Reference
[arxiv] Scene Splatter: Momentum 3D Scene Generation from Single Image with Video Diffusion Model
Published: (Updated: )
Author: Shengjun Zhang, Jinzhao Li, Xin Fei, Hao Liu, Yueqi Duan
http://arxiv.org/abs/2504.02764v1