시각 공간 지능의 혁신: ViCA2의 등장


Kyoto University와 RIKEN 연구팀이 개발한 ViCA2는 시각 공간 인지 능력을 획기적으로 향상시킨 MLLM입니다. SigLIP과 Hiera를 결합한 독특한 아키텍처와 32만 2천 개 이상의 데이터셋 ViCA-322K를 통해 VSI-Bench 벤치마크에서 최고 성능을 달성했습니다. 모델과 데이터셋 공개를 통해 시각 공간 인지 분야의 발전에 크게 기여할 것으로 기대됩니다.

related iamge

Kyoto University와 RIKEN의 Qi Feng 박사와 Hidetoshi Shimodaira 박사 연구팀이 시각 공간 인지(Visuospatial Cognition) 능력을 획기적으로 향상시킨 새로운 다중 모달 대규모 언어 모델(MLLM), ViCA2 (Visuospatial Cognitive Assistant 2) 를 발표했습니다. 기존 MLLM들이 일반적인 시각-언어 작업에는 뛰어나지만, 공간 배치, 관계, 역동성에 대한 추론 능력인 시각 공간 인지에는 어려움을 겪는다는 점에 착안하여 개발되었습니다.

ViCA2의 핵심은 SigLIPHiera라는 두 개의 비전 인코더를 결합한 독특한 아키텍처에 있습니다. SigLIP은 시각적 의미를, Hiera는 공간 구조를 처리하여 시각 정보를 효율적으로 통합합니다. 여기에 토큰 비율 제어 메커니즘을 추가하여 모델의 효율성까지 높였습니다. 단순히 정보를 처리하는 것을 넘어, 공간적 이해에 특화된 설계가 돋보입니다.

연구팀은 ViCA2의 성능을 평가하기 위해 32만 2천 개 이상의 공간 기반 질의응답 쌍으로 구성된 대규모 데이터셋, ViCA-322K를 새롭게 구축했습니다. 이 데이터셋을 활용한 목표 지시 학습(targeted instruction tuning)을 통해 ViCA2의 시각 공간 추론 능력을 더욱 향상시켰습니다.

그 결과는 놀라웠습니다. 난이도 높은 벤치마크인 VSI-Bench에서 ViCA2-7B 모델은 평균 56.8점을 기록하며, LLaVA-NeXT-Video-72B (40.9점) 와 같은 대규모 오픈소스 모델, 그리고 Gemini-1.5 Pro (45.4점) 와 같은 최첨단 독점 모델들을 압도적으로 앞섰습니다. 이는 소형 모델로도 강력한 시각 공간 지능을 달성할 수 있음을 보여주는 획기적인 결과입니다.

더욱 고무적인 것은 연구팀이 ViCA2 모델, 코드베이스, 그리고 ViCA-322K 데이터셋을 모두 공개하여 후속 연구를 지원한다는 점입니다. 이는 시각 공간 인지 분야의 발전에 크게 기여할 것으로 예상되며, 더욱 정교하고 효율적인 AI 모델 개발의 새로운 지평을 열어줄 것으로 기대됩니다. 🚀


*이 기사는 AI가 생성한 내용으로, 일부 정보가 실제와 다를 수 있습니다. 정확한 확인을 위해 추가적인 검증을 권장드립니다.

Reference

[arxiv] Towards Visuospatial Cognition via Hierarchical Fusion of Visual Experts

Published:  (Updated: )

Author: Qi Feng, Hidetoshi Shimodaira

http://arxiv.org/abs/2505.12363v1