쇼 혹은 텔? VLMs를 위한 효과적인 세분화 프롬프트 전략


본 연구는 거대 언어-비전 모델(VLMs)의 의미론적 분할 성능 향상을 위해 텍스트 및 시각적 프롬프트의 효과적인 활용 방안을 제시하고, 훈련이 필요 없는 새로운 기준 모델 PromptMatcher를 제안하여 기존 최고 성능 모델을 능가하는 결과를 달성했습니다.

related iamge

최근 거대 언어-비전 모델(VLMs)이 다양한 작업을 해결하는 기반 모델로 주목받고 있습니다. 특히, 별도의 학습 없이 프롬프트를 통해 작업을 수행하는 능력이 핵심입니다. Niccolo Avogaro를 비롯한 8명의 연구진은 VLMs를 이용한 의미론적 분할(semantic segmentation)에서 효과적인 프롬프트 전략을 연구했습니다.

텍스트 vs. 이미지: 프롬프트의 두 얼굴

연구진은 MESS 데이터셋을 사용하여 여러 최신 VLMs의 분할 성능을 텍스트 또는 시각적 프롬프트를 통해 체계적으로 평가했습니다. 결과는 놀라웠습니다. VLMs는 특정 분할 작업을 위해 훈련된 전문 모델에 비해 평균 30% 정도 성능이 떨어졌습니다. (IoU 지표 기준)

더욱 흥미로운 점은 텍스트 프롬프트와 시각적 프롬프트가 상호 보완적인 역할을 한다는 사실입니다. 한 프롬프트 방식이 실패한 예시를 다른 방식이 성공적으로 처리하는 경우가 많았습니다. 즉, 어떤 프롬프트 방식을 사용할지 예측하는 것만으로도 성능을 11% 향상시킬 수 있다는 것을 의미합니다.

PromptMatcher: 훈련 없는 혁신

연구진은 이러한 분석 결과에 착안하여, 텍스트와 시각적 프롬프트를 결합하는 놀라울 만큼 간단한 훈련이 필요 없는 기준 모델인 'PromptMatcher'를 제안했습니다. PromptMatcher는 몇 가지 예시만으로도 학습할 수 있는 '소수 샷(few-shot)' 프롬프트 방식에서 최첨단 성능을 달성했습니다. 특히, 최고 성능의 텍스트 프롬프트 기반 VLM보다 2.5%, 최고 성능의 시각적 프롬프트 기반 VLM보다 3.5% 향상된 결과를 보였습니다.

미래를 위한 전망

이 연구는 VLMs의 의미론적 분할 능력 향상에 중요한 시사점을 제공합니다. 텍스트와 이미지 프롬프트의 전략적 활용과 PromptMatcher와 같은 훈련 없는 모델의 개발은 VLMs의 실용성을 더욱 높일 것으로 기대됩니다. 앞으로 더욱 발전된 프롬프트 전략 연구를 통해 VLMs의 성능을 극대화하고 다양한 분야에 적용될 가능성을 열어갈 수 있을 것입니다. 이는 단순한 기술적 진보를 넘어, 이미지 이해의 새로운 지평을 여는 중요한 발걸음입니다.


*이 기사는 AI가 생성한 내용으로, 일부 정보가 실제와 다를 수 있습니다. 정확한 확인을 위해 추가적인 검증을 권장드립니다.

Reference

[arxiv] Show or Tell? Effectively prompting Vision-Language Models for semantic segmentation

Published:  (Updated: )

Author: Niccolo Avogaro, Thomas Frick, Mattia Rigotti, Andrea Bartezzaghi, Filip Janicki, Cristiano Malossi, Konrad Schindler, Roy Assaf

http://arxiv.org/abs/2503.19647v1