3D 공간 이해의 혁신: SpatialScore와 SpatialAgent의 등장
본 기사는 다중 모달 대규모 언어 모델(MLLM)의 3D 공간 이해 능력을 평가하기 위한 새로운 벤치마크 SpatialScore와 다중 에이전트 시스템 SpatialAgent의 개발에 대해 소개합니다. 28,000개 이상의 샘플을 포함하는 SpatialScore와 9가지 전문 도구를 통합한 SpatialAgent는 MLLM의 공간 추론 능력 평가와 향상에 크게 기여할 것으로 예상됩니다.

최근 다중 모달 대규모 언어 모델(MLLM)이 질의응답 과제에서 놀라운 성과를 거두고 있지만, 3D 공간에 대한 이해 능력은 아직 미개척 분야로 남아있습니다. Haoning Wu를 비롯한 연구진은 이러한 한계를 극복하기 위해 SpatialScore, 즉 멀티모달 공간 이해를 위한 가장 포괄적이고 다양한 벤치마크를 개발했습니다.
VGBench: 시각적 기하학적 인식의 새로운 기준
연구진은 먼저 VGBench라는 새로운 벤치마크를 도입했습니다. VGBench는 카메라 위치 및 움직임 추정과 같은 시각적 기하학적 인식 능력을 평가하는 데 특화되어 있습니다. 기존 MLLM의 3D 공간 지각 능력을 정확히 평가할 수 있도록 설계되었죠.
SpatialScore: 28,000개 이상의 샘플과 도전적인 과제
SpatialScore는 VGBench를 기반으로 다른 11개의 기존 데이터셋을 통합하여 구성되었습니다. 무려 28,000개 이상의 샘플을 포함하고 있으며, 다양한 공간 이해 작업, 모달리티, 질의응답 형식을 다룹니다. 더욱이, SpatialScore-Hard라는 난이도 높은 하위 집합을 포함하여 MLLM의 한계를 더욱 명확히 드러냅니다.
SpatialAgent: 9가지 전문 도구의 협력
연구진은 SpatialScore의 효과적인 평가를 위해 SpatialAgent라는 새로운 다중 에이전트 시스템을 개발했습니다. SpatialAgent는 공간 이해를 위한 9가지 전문 도구를 통합하여 Plan-Execute 및 ReAct 추론 패러다임을 모두 지원합니다. 이를 통해 MLLM의 공간 추론 능력을 보다 효율적으로 평가하고 개선할 수 있게 되었습니다.
결론: MLLM의 공간 지각 능력 향상을 위한 이정표
SpatialScore와 SpatialAgent는 MLLM의 공간 추론 능력에 대한 심도 있는 이해를 제공합니다. 이번 연구는 MLLM의 지속적인 발전을 위한 중요한 이정표를 제시하며, 앞으로 공간 지각 능력을 향상시키기 위한 새로운 연구 방향을 제시할 것으로 기대됩니다. SpatialScore는 향후 MLLM의 발전에 있어 엄격한 벤치마크로서 중요한 역할을 할 것입니다.
Reference
[arxiv] SpatialScore: Towards Unified Evaluation for Multimodal Spatial Understanding
Published: (Updated: )
Author: Haoning Wu, Xiao Huang, Yaohui Chen, Ya Zhang, Yanfeng Wang, Weidi Xie
http://arxiv.org/abs/2505.17012v1