VLM-R³: 시각적 추론의 새로운 지평을 열다


VLM-R³은 시각적 추론에 있어 새로운 가능성을 제시하는 획기적인 프레임워크입니다. R-GRPO와 VLIR 코퍼스를 통해 시각 정보의 효율적인 활용 및 통합을 가능하게 하며, MathVista, ScienceQA 등 다양한 벤치마크에서 최첨단 성능을 입증했습니다.

related iamge

VLM-R³: 시각적 추론의 새로운 지평을 열다

최근 몇 년간, 추론 기반 대규모 언어 모델(MLLM)은 장문의 텍스트 추론 체인 생성에서 상당한 성공을 거두었습니다. 하지만 역동적이고 반복적인 시각적 영역 집중 및 재방문이 필요한 복잡한 작업에서는 여전히 어려움을 겪고 있습니다. 시각적 증거에 대한 정확한 텍스트 추론을 위해서는 말이죠.

이러한 한계를 극복하기 위해, 중국과학원 연구진(차오야 지앙 외)은 획기적인 프레임워크 VLM-R³ (Visual Language Model with Region Recognition and Reasoning) 을 발표했습니다. VLM-R³은 MLLM에 세 가지 핵심 기능을 부여합니다.

  1. 필요한 시각적 증거의 시점 판단: 언제 추가적인 시각 정보가 필요한지 스스로 결정합니다.
  2. 시각적 근거 위치 결정: 이미지 내에서 어디에 초점을 맞춰야 하는지 정확하게 파악합니다.
  3. 관련 하위 이미지 콘텐츠와 텍스트 추론 체인의 매끄러운 통합: 선택된 시각 정보를 추론 과정에 자연스럽게 녹여냅니다.

VLM-R³의 핵심은 R-GRPO(Region-Conditioned Reinforcement Policy Optimization) 입니다. 이는 모델이 정보가 풍부한 영역을 선택하고, 적절한 변환(예: 자르기, 확대)을 수행하며, 그 결과를 후속 추론 단계에 통합하도록 보상하는 훈련 패러다임입니다. 이 정책을 효과적으로 구축하기 위해, 연구팀은 영역 선택과 텍스트적 근거에 대한 단계별 지도를 제공하는 Visuo-Lingual Interleaved Rationale (VLIR) 코퍼스를 정성적으로 구축했습니다.

MathVista, ScienceQA 및 기타 벤치마크에 대한 광범위한 실험 결과, VLM-R³은 제로샷 및 퓨샷 설정에서 최첨단 성능을 달성했습니다. 특히 미묘한 공간적 추론이나 세밀한 시각적 단서 추출이 필요한 질문에서 가장 큰 성능 향상을 보였습니다.

VLM-R³는 단순한 시각-언어 모델을 넘어, 시각 정보를 능동적으로 활용하고 추론 과정에 통합하는 지능형 시스템으로의 발전을 보여주는 중요한 사례입니다. 이는 향후 복잡한 시각적 추론 문제 해결에 새로운 가능성을 제시하며, AI 연구의 혁신을 이끌어갈 것으로 기대됩니다.


*이 기사는 AI가 생성한 내용으로, 일부 정보가 실제와 다를 수 있습니다. 정확한 확인을 위해 추가적인 검증을 권장드립니다.

Reference

[arxiv] VLM-R$^3$: Region Recognition, Reasoning, and Refinement for Enhanced Multimodal Chain-of-Thought

Published:  (Updated: )

Author: Chaoya Jiang, Yongrui Heng, Wei Ye, Han Yang, Haiyang Xu, Ming Yan, Ji Zhang, Fei Huang, Shikun Zhang

http://arxiv.org/abs/2505.16192v1