RSVP: 시각적 프롬프트와 다중 모달 사고 연쇄를 통한 추론 분할 - AI가 이미지를 이해하는 새로운 방식


Yi Lu 박사 연구팀이 개발한 RSVP는 다중 모달 대규모 언어 모델의 추론 능력과 시각적 이해를 결합한 혁신적인 시각적 분할 프레임워크입니다. 시각적 프롬프트와 두 단계 구조를 통해 최첨단 성능을 달성, 다양한 분야에서의 응용 가능성을 제시합니다.

related iamge

최근 괄목할 만한 발전을 이룬 다중 모달 대규모 언어 모델(MLLM)은 놀라운 추론 능력을 보여주고 있습니다. 하지만, 시각적 정보를 바탕으로 이해하고 분할하는 명확한 메커니즘이 부족하여 인지 추론과 시각적 인식 사이에 괴리가 존재했습니다.

이러한 한계를 극복하기 위해, 중국과학원 자동화연구소의 Yi Lu 박사 연구팀은 RSVP (Reasoning Segmentation via Visual Prompting) 라는 혁신적인 프레임워크를 개발했습니다. RSVP는 다단계 다중 모달 추론과 시각적 이해를 통합하여 추론과 시각적 지각의 간극을 메우는 것을 목표로 합니다.

RSVP는 크게 두 단계로 구성됩니다. 첫 번째 단계인 추론 단계에서는 다중 모달 사고 연쇄 시각적 프롬프트를 활용하여 MLLM이 질문을 이해하고 목표를 추론하도록 돕습니다. 이를 통해 해석 가능한 영역 제안을 생성하여 시각적 기반을 강화합니다. 두 번째 단계인 분할 단계에서는 Vision-Language Segmentation Module (VLSM) 을 사용하여 이러한 제안을 개선합니다. VLSM은 텍스트와 시각적 단서를 원활하게 통합하여 정확한 분할 마스크를 생성합니다.

RSVP는 다중 모달 추론과 분할 간의 상호 작용을 명시적으로 모델링함으로써 해석 가능한 추론 분할에 대한 새로운 패러다임을 제시합니다. MLLM의 고유한 위치 파악 기능을 활용하여 객체에 대해 추론할 뿐만 아니라 구조화된 시각적 표현을 생성할 수 있습니다.

연구팀은 광범위한 실험을 통해 RSVP가 최첨단 성능을 달성했음을 입증했습니다. ReasonSeg 데이터셋에서 최첨단 방법보다 최대 +6.5 gIoU 및 +9.2 cIoU 향상을 달성했으며, SegInW 데이터셋에서 제로샷 설정에서 49.7 mAP를 달성했습니다. 이러한 결과는 RSVP가 인지 추론과 구조화된 시각적 이해를 통합하는 효과적이고 확장 가능한 프레임워크임을 입증합니다.

결론적으로, RSVP는 AI가 이미지를 더욱 정확하고 이해력 있게 처리하는 새로운 지평을 열었습니다. 시각적 프롬프트와 다중 모달 사고 연쇄를 결합한 이 혁신적인 접근 방식은 자율 주행, 의료 영상 분석 등 다양한 분야에서 혁신적인 응용 가능성을 제시합니다. 앞으로 이러한 기술이 어떻게 발전하고 우리의 삶을 변화시킬지 기대됩니다.


*이 기사는 AI가 생성한 내용으로, 일부 정보가 실제와 다를 수 있습니다. 정확한 확인을 위해 추가적인 검증을 권장드립니다.

Reference

[arxiv] RSVP: Reasoning Segmentation via Visual Prompting and Multi-modal Chain-of-Thought

Published:  (Updated: )

Author: Yi Lu, Jiawang Cao, Yongliang Wu, Bozheng Li, Licheng Tang, Yangguang Ji, Chong Wu, Jay Wu, Wenbo Zhu

http://arxiv.org/abs/2506.04277v1