혁신적인 AI 모델 ANNEXE: 자기중심 상호작용의 새로운 지평을 열다


중국과학원 연구진이 자기중심 상호작용 이해를 위한 새로운 과제 Ego-IRG와 대규모 데이터셋 Ego-IRGBench를 제시하고, 다중 모달 대규모 언어 모델 기반의 통합 모델 ANNEXE를 개발하여 효과성을 입증했습니다.

related iamge

인간과 환경의 상호작용을 이해하는 것은 차세대 지능형 시스템 개발의 초석입니다. 하지만 기존의 자기중심 상호작용 이해 방식은 사용자 질의에 따라 일관된 텍스트와 픽셀 수준의 응답을 동시에 생성하는 데 어려움을 겪어왔습니다. 이는 다양한 응용 분야의 요구사항을 충족하는 데 유연성이 부족함을 의미합니다.

중국과학원 소속 수 연구진 (Yuejiao Su, Yi Wang, Qiongyang Hu, Chuang Yang, Lap-Pui Chau)은 이러한 한계를 극복하기 위해 '자기중심 상호작용 추론 및 픽셀 접지(Ego-IRG)' 라는 새로운 과제를 제시했습니다. Ego-IRG는 자기중심 이미지와 질의를 입력으로 받아, 분석, 응답, 픽셀 접지의 세 단계를 거쳐 유창한 텍스트와 정밀한 픽셀 수준의 응답을 생성합니다. 이는 자기중심 상호작용을 포괄적으로 이해하는 데 중요한 발걸음입니다.

하지만 기존 데이터셋은 Ego-IRG 과제의 요구사항을 충족하지 못했습니다. 이 문제를 해결하기 위해 연구팀은 방대한 수작업을 통해 2만 개 이상의 자기중심 이미지와 160만 개 이상의 질의 및 다중 모달 응답을 포함하는 Ego-IRGBench 데이터셋을 구축했습니다. 이는 ANNEXE 모델의 성능 평가에 필수적인 기반이 되었습니다.

연구팀은 다중 모달 대규모 언어 모델을 활용하여 텍스트와 픽셀 수준의 출력을 생성하는 통합 모델인 ANNEXE를 설계했습니다. ANNEXE는 자기중심 상호작용에 대한 포괄적인 해석을 가능하게 합니다. Ego-IRGBench 데이터셋을 이용한 실험 결과는 ANNEXE 모델의 효과성을 다른 연구 결과와 비교하여 입증했습니다.

ANNEXE 모델은 자기중심 상호작용 이해에 새로운 지평을 열었습니다. 이를 통해 더욱 정교하고 유연한 지능형 시스템 개발이 가능해질 것으로 기대됩니다. 앞으로 ANNEXE 모델의 발전과 다양한 응용 분야에서의 활용이 주목됩니다. 🙏


*이 기사는 AI가 생성한 내용으로, 일부 정보가 실제와 다를 수 있습니다. 정확한 확인을 위해 추가적인 검증을 권장드립니다.

Reference

[arxiv] ANNEXE: Unified Analyzing, Answering, and Pixel Grounding for Egocentric Interaction

Published:  (Updated: )

Author: Yuejiao Su, Yi Wang, Qiongyang Hu, Chuang Yang, Lap-Pui Chau

http://arxiv.org/abs/2504.01472v1