시각-언어 프롬프트로 무엇이든 참조하세요: 혁신적인 객체 분할 기술의 등장
Shengcao Cao 등 연구진의 논문 "Refer to Anything with Vision-Language Prompts"는 시각-언어 프롬프트를 이용한 혁신적인 객체 분할 기술을 제시합니다. 새로운 ORES 과제와 RAS 프레임워크, 그리고 MaskGroups 데이터셋을 통해 기존 기술의 한계를 극복하고, 더욱 사용자 친화적인 AI 시스템 개발의 가능성을 열었습니다.

시각-언어 프롬프트로 무엇이든 참조하세요: 혁신적인 객체 분할 기술의 등장
최근 이미지 분할 모델은 고품질 마스크를 생성하는 능력이 비약적으로 발전했습니다. 하지만 Shengcao Cao 등 연구진이 발표한 논문 "Refer to Anything with Vision-Language Prompts"에 따르면, 기존 모델들은 여전히 한계를 가지고 있습니다. 바로 언어와 시각 정보를 모두 활용한 복잡한 질의에 대한 포괄적인 의미 이해를 제공하지 못한다는 점입니다. 이는 시각-언어 프롬프트 기반의 사용자 친화적인 상호작용이 필요한 어플리케이션에서 효율성을 떨어뜨리는 주요 원인이었습니다.
이러한 한계를 극복하기 위해 연구진은 전방위적 참조 표현 분할(ORES) 이라는 새로운 과제를 제시했습니다. ORES는 텍스트만으로 또는 텍스트와 시각적 참조 객체를 결합하여 임의의 프롬프트를 기반으로 마스크 그룹을 생성하는 기술입니다. 이를 위해 연구진은 "어떤 분할 마스크 그룹이든 참조하라"(RAS) 라는 혁신적인 프레임워크를 제안했습니다. RAS는 마스크 중심의 대규모 다중 모달 모델을 통해 복잡한 다중 모달 상호작용 및 이해 능력을 향상시킨 분할 모델입니다.
ORES 모델의 학습 및 벤치마킹을 위해 연구진은 MaskGroups-2M 및 MaskGroups-HQ라는 새로운 데이터셋을 구축했습니다. 이 데이터셋은 텍스트 및 참조 객체로 지정된 다양한 마스크 그룹을 포함합니다. 광범위한 평가 결과, RAS는 새로운 ORES 과제뿐만 아니라 기존의 참조 표현 분할(RES) 및 일반화된 참조 표현 분할(GRES) 과제에서도 뛰어난 성능을 보였습니다. (프로젝트 페이지: https://Ref2Any.github.io)
이 연구는 시각-언어 프롬프트를 이용한 객체 분할 기술에 획기적인 발전을 가져왔습니다. 단순한 이미지 분할을 넘어, 복잡한 질의에 대한 포괄적인 의미 이해를 제공함으로써, 사용자 친화적인 AI 시스템 개발에 중요한 전기를 마련했습니다. 이는 앞으로 다양한 분야, 특히 인간-컴퓨터 상호작용 분야에서 혁신적인 응용 프로그램의 개발을 가속화할 것으로 기대됩니다.
핵심: 본 연구는 복잡한 시각-언어 프롬프트에 대한 이해 능력을 향상시킨 새로운 객체 분할 기술을 제시했으며, 이를 통해 사용자 친화적인 AI 시스템 개발에 큰 진전을 이루었습니다. 새로운 데이터셋과 프레임워크를 통해 다양한 분야에서 폭넓은 활용이 기대됩니다.
Reference
[arxiv] Refer to Anything with Vision-Language Prompts
Published: (Updated: )
Author: Shengcao Cao, Zijun Wei, Jason Kuen, Kangning Liu, Lingzhi Zhang, Jiuxiang Gu, HyunJoon Jung, Liang-Yan Gui, Yu-Xiong Wang
http://arxiv.org/abs/2506.05342v1