3D 공간에서의 시각과 청각의 만남: Visual Acoustic Fields
Yuelei Li 등 연구진이 개발한 Visual Acoustic Fields는 3D Gaussian Splatting을 활용하여 시각적 신호와 타격음을 3D 공간에서 연결하는 혁신적인 프레임워크입니다. 조건부 확산 모델 기반의 사운드 생성 모듈과 3D 장면 질의 기반의 사운드 위치 추정 모듈로 구성되며, 시각 및 음향 신호의 3D 컨텍스트 연동을 위한 새로운 데이터셋을 함께 공개했습니다.

물체에 충격이 가해질 때 발생하는 소리는 물체의 재질과 모양에 따라 다릅니다. 인간은 이러한 직관적인 이해를 바탕으로 물체의 외형만 보고도 어떤 소리가 날지 어느 정도 예측할 수 있습니다. 최근, 뤼얼레이 리(Yuelei Li)를 비롯한 연구진은 이러한 직관적인 이해를 Visual Acoustic Fields 라는 혁신적인 프레임워크로 구현하는 데 성공했습니다. 이 프레임워크는 3D Gaussian Splatting (3DGS) 기술을 활용하여 3D 공간 내에서 시각적 신호와 타격음을 연결합니다.
두 가지 핵심 모듈: 사운드 생성과 사운드 위치 추정
Visual Acoustic Fields는 크게 두 가지 모듈로 구성됩니다. 첫 번째는 사운드 생성 모듈입니다. 이 모듈은 특징이 강화된 3DGS로부터 렌더링된 다중 스케일 특징을 입력으로 받아 조건부 확산 모델을 이용하여 사실적인 타격음을 생성합니다. 두 번째는 사운드 위치 추정 모듈입니다. 이 모듈은 특징이 강화된 3DGS로 표현된 3D 장면을 질의하여 사운드 소스를 기반으로 타격 위치를 정확하게 추정합니다.
혁신적인 데이터셋: 시각 및 음향 신호의 3D 컨텍스트 통합
이 프레임워크를 지원하기 위해 연구진은 장면 수준의 시각-음향 샘플 쌍을 수집하는 새로운 파이프라인을 도입했습니다. 이 파이프라인을 통해 캡처된 이미지, 충격 위치 및 해당 사운드 간의 정렬을 달성했습니다. 연구진에 따르면, 이는 3D 컨텍스트 내에서 시각적 및 음향 신호를 연결하는 최초의 데이터셋이라고 합니다. 다양한 실험을 통해 Visual Acoustic Fields가 타당한 충격음을 생성하고 충격 소스를 정확하게 찾는 효과를 입증했습니다. 자세한 내용은 프로젝트 페이지 (https://yuelei0428.github.io/projects/Visual-Acoustic-Fields/)를 참조하십시오.
미래를 향한 전망: 현실감 넘어 상상력까지
이 연구는 단순히 사실적인 소리 생성을 넘어, 3D 공간에서 시각 정보와 청각 정보의 상호작용을 이해하는 새로운 장을 열었습니다. 게임 개발, 가상현실, 증강현실 등 다양한 분야에 응용될 가능성이 높으며, 더욱 현실감 있고 몰입도 높은 경험을 제공할 수 있을 것으로 기대됩니다. 하지만 데이터셋의 규모나 다양성에 따라 성능이 영향을 받을 수 있다는 점을 고려해야 합니다. 앞으로 더욱 발전된 기술과 더욱 방대한 데이터를 통해 Visual Acoustic Fields가 어떻게 진화할지 기대됩니다.
Reference
[arxiv] Visual Acoustic Fields
Published: (Updated: )
Author: Yuelei Li, Hyunjin Kim, Fangneng Zhan, Ri-Zhao Qiu, Mazeyu Ji, Xiaojun Shan, Xueyan Zou, Paul Liang, Hanspeter Pfister, Xiaolong Wang
http://arxiv.org/abs/2503.24270v1