#SpaRE: 합성 데이터로 시각 언어 모델의 공간 추론 능력을 혁신하다!


마이클 오게지와 프레다 시가 이끄는 연구팀은 합성 데이터를 활용하여 시각 언어 모델(VLM)의 공간 추론 능력을 향상시킨 SpaRE를 개발했습니다. SpaRE는 45만 5천 개의 샘플과 340만 쌍의 QA 쌍으로 구성된 대규모 데이터셋으로 학습되었으며, 공간 추론 벤치마크에서 최대 49%의 성능 향상을 보였습니다. 이는 실세계 로봇 및 내비게이션 작업에 VLM을 적용하는 데 중요한 진전입니다.

related iamge

SpaRE: 합성 데이터가 시각 언어 모델의 한계를 뛰어넘다!

최근 마이클 오게지와 프레다 시가 이끄는 연구팀이 발표한 놀라운 연구 결과가 있습니다. 바로 SpaRE (Spatial-Reasoning Enhanced) 라는 이름의 새로운 시각 언어 모델(VLM)입니다. 기존의 VLM은 이미지 캡션 생성이나 시각적 질의응답(VQA)과 같은 작업에서는 뛰어난 성능을 보이지만, 인간이 쉽게 하는 공간 추론 능력에는 한계를 보였습니다. 우리가 사물의 위치, 방향, 크기 등을 파악하고 이해하는 능력, 바로 공간 추론이죠.

연구팀은 널리 사용되는 VL 데이터셋에 공간 관계 정보가 부족하고, 특히 다양한 공간 관계는 매우 적다는 사실을 발견했습니다. 이러한 데이터셋의 한계로 인해 VLM은 다양한 공간 관계를 제대로 처리하지 못했던 것입니다.

이 문제를 해결하기 위해 연구팀은 Localized Narratives, DOCCI, PixMo-Cap 등에서 얻은 초고해상도 이미지 설명을 사용하여 합성 VQA 데이터셋을 구축했습니다. 이 데이터셋인 SpaRE는 무려 45만 5천 개의 샘플과 340만 쌍의 질의응답 쌍으로 이루어져 있습니다. 이는 기존 데이터셋의 한계를 압도하는 방대한 양입니다.

SpaRE 데이터셋으로 학습된 SpaRE VLM은 공간 추론 벤치마크에서 놀라운 결과를 보였습니다. What's Up 벤치마크에서는 최대 49%의 성능 향상을 달성했으며, 일반적인 작업에서도 우수한 성능을 유지했습니다.

이는 단순히 성능 향상을 넘어, 로봇 제어, 내비게이션 등 실제 세계의 복잡한 문제 해결에 VLM을 활용할 수 있는 가능성을 크게 열어주는 결과입니다. 합성 데이터를 활용한 이번 연구는 VLM의 공간 추론 능력을 획기적으로 발전시켜, 인간의 능력에 더욱 가까워지도록 만드는 중요한 이정표를 세웠다고 평가할 수 있습니다. 앞으로 VLM이 더욱 다양하고 복잡한 실세계 문제에 적용될 수 있는 가능성에 대한 기대감을 높이는 연구 결과입니다.


*이 기사는 AI가 생성한 내용으로, 일부 정보가 실제와 다를 수 있습니다. 정확한 확인을 위해 추가적인 검증을 권장드립니다.

Reference

[arxiv] SpaRE: Enhancing Spatial Reasoning in Vision-Language Models with Synthetic Data

Published:  (Updated: )

Author: Michael Ogezi, Freda Shi

http://arxiv.org/abs/2504.20648v1