3D 공간에서 시각과 청각의 만남: Visual Acoustic Fields
Yuelei Li 등 연구진이 발표한 Visual Acoustic Fields는 3D Gaussian Splatting을 이용해 시각 정보와 음향 정보를 3D 공간에서 연결하는 혁신적인 프레임워크입니다. 조건부 확산 모델과 3DGS를 통해 현실적인 타격음 생성 및 정확한 타격 위치 파악이 가능하며, 시각 및 음향 신호를 3D 맥락에서 연결하는 최초의 데이터셋을 함께 공개했습니다.

물체를 쳤을 때 나는 소리는 물체의 재질과 모양에 따라 다릅니다. 우리는 이러한 직관적인 이해를 바탕으로 물체의 외형만 보고도 어떤 소리가 날지 예측할 수 있습니다. 최근, Yuelei Li를 비롯한 연구진이 발표한 Visual Acoustic Fields 논문은 이러한 직관적인 인식을 AI 기술로 구현하는 놀라운 성과를 보여줍니다.
이 연구의 핵심은 3D Gaussian Splatting (3DGS) 을 활용하여 시각 신호와 타격음을 3D 공간 내에서 연결하는 프레임워크를 제시한 것입니다. 이는 단순히 시각과 청각 정보를 연결하는 것을 넘어, 3D 공간이라는 맥락에서 두 정보를 통합적으로 이해하고자 하는 획기적인 시도입니다.
Visual Acoustic Fields는 크게 두 가지 모듈로 구성됩니다. 첫째, 음향 생성 모듈은 특징이 강화된 3DGS에서 렌더링된 다중 스케일 특징을 사용하는 조건부 확산 모델을 통해 현실적인 타격음을 생성합니다. 이는 단순한 소리 재현이 아닌, 다양한 물체의 재질과 형태를 반영한 정교한 사운드를 생성하는 것을 의미합니다. 둘째, 음향 위치 파악 모듈은 특징이 강화된 3DGS로 표현된 3D 장면을 질의하여 음원을 기반으로 타격 위치를 정확하게 파악합니다.
이러한 프레임워크를 지원하기 위해 연구팀은 장면 수준의 시각-음향 샘플 쌍을 수집하는 새로운 파이프라인을 도입하여 캡처된 이미지, 충격 위치, 그리고 해당 소리 간의 정렬을 달성했습니다. 이는 시각 및 음향 신호를 3D 맥락에서 연결하는 최초의 데이터셋이라는 점에서 큰 의미를 가집니다. 연구팀은 자체 제작한 데이터셋을 통해 Visual Acoustic Fields의 효과를 검증하고, 타격음의 사실적인 생성과 타격 위치의 정확한 파악이 가능함을 보여주었습니다. (자세한 내용은 프로젝트 페이지 참조)
이 연구는 AI가 시각과 청각 정보를 넘어, 3D 공간에 대한 이해를 더욱 깊게 할 수 있음을 보여주는 중요한 사례입니다. 이는 향후 가상현실, 증강현실, 로보틱스 등 다양한 분야에서 더욱 현실적이고 몰입감 있는 경험을 제공하는 데 기여할 것으로 예상됩니다. 하지만, 데이터셋의 규모와 다양성, 그리고 실제 환경에서의 적용 가능성에 대한 추가적인 연구가 필요할 것으로 보입니다.
Reference
[arxiv] Visual Acoustic Fields
Published: (Updated: )
Author: Yuelei Li, Hyunjin Kim, Fangneng Zhan, Ri-Zhao Qiu, Mazeyu Ji, Xiaojun Shan, Xueyan Zou, Paul Liang, Hanspeter Pfister, Xiaolong Wang
http://arxiv.org/abs/2503.24270v2