혁신적인 시각적 위치 프롬프트: MLLM 기반 시각적 그라운딩의 새로운 지평
Wei Tang 등 연구팀은 MLLM의 시각적 그라운딩 성능 향상을 위해 Visual Position Prompt (VPP) 기반의 VPP-LLaVA 모델을 개발했습니다. Global 및 Local VPP 메커니즘과 소규모 고품질 데이터셋 VPP-SFT를 활용하여 기존 모델들을 능가하는 성능을 달성, 시각적 그라운딩 분야의 혁신을 이끌었습니다.

Wei Tang, Yanpeng Sun, Qinying Gu, Zechao Li 연구팀이 발표한 논문 "Visual Position Prompt for MLLM based Visual Grounding"은 멀티모달 대규모 언어 모델(MLLM)의 시각적 그라운딩 성능 향상에 획기적인 돌파구를 제시합니다. MLLM은 이미지 관련 작업에 탁월하지만, 이미지 내 좌표와 공간 정보를 정확히 연결하는 데 어려움을 겪습니다. 특히, 시각적 그라운딩과 같은 위치 인식 작업에서 이러한 한계는 더욱 두드러집니다.
연구팀은 이 문제를 해결하기 위해 Visual Position Prompt (VPP) 를 도입한 VPP-LLaVA 모델을 개발했습니다. VPP-LLaVA는 두 가지 보완적인 메커니즘을 통합합니다.
- Global VPP: 학습 가능한 축과 같은 임베딩을 입력 이미지에 겹쳐 구조화된 공간적 단서를 제공합니다. 마치 이미지에 좌표축을 덧씌워 위치 정보를 명확히 하는 것과 같습니다.
- Local VPP: 위치 인식 쿼리를 통합하여 객체의 가능성 있는 위치를 제시함으로써 미세한 위치 파악에 집중합니다. 이는 이미지 내 객체의 위치를 보다 정밀하게 특정하는 데 도움을 줍니다.
또한, 연구팀은 VPP-SFT 데이터셋(0.6M samples)을 새롭게 제작했습니다. 이는 고품질의 시각적 그라운딩 데이터를 효율적인 모델 학습을 위해 압축된 형태로 통합한 것입니다. 흥미롭게도, 기존의 MiniGPT-v2와 같은 MLLM들이 21M samples의 방대한 데이터셋을 사용하는 것과 달리, VPP-SFT의 소규모 데이터셋으로도 최첨단 성능을 달성했습니다. 이는 VPP 기법의 효율성을 보여주는 중요한 결과입니다.
VPP-LLaVA는 표준 그라운딩 벤치마크에서 최첨단 결과를 달성하며, MLLM 기반 시각적 그라운딩 분야에 새로운 가능성을 제시합니다. 해당 코드와 VPP-SFT 데이터셋은 논문이 승인되면 https://github.com/WayneTomas/VPP-LLaVA 에서 공개될 예정입니다.
이 연구는 MLLM의 공간적 이해 능력을 향상시키는 중요한 발걸음이며, 앞으로 자율주행, 로봇 공학, 증강 현실 등 다양한 분야에 폭넓은 영향을 미칠 것으로 기대됩니다.
Reference
[arxiv] Visual Position Prompt for MLLM based Visual Grounding
Published: (Updated: )
Author: Wei Tang, Yanpeng Sun, Qinying Gu, Zechao Li
http://arxiv.org/abs/2503.15426v2