COSMO: 저렴한 비용의 비전-언어 탐색을 위한 선택적 기억 메커니즘의 조합
중국 연구팀이 개발한 COSMO는 선택적 기억 메커니즘을 통해 저렴한 비용으로 고성능의 비전-언어 탐색(VLN)을 가능하게 하는 새로운 아키텍처입니다. 다양한 벤치마크 테스트에서 우수한 성능과 효율성을 입증했습니다.

AI가 집사가 되는 날: COSMO와 저비용 고성능 비전-언어 탐색
스마트홈 시대, 인공지능이 집안일을 돕는 비전-언어 탐색(VLN) 기술이 주목받고 있습니다. 최근 VLN 연구는 주로 트랜스포머 기반 아키텍처에 외부 지식 베이스나 지도 정보를 추가하여 성능 향상을 추구해왔습니다. 하지만 이러한 접근 방식은 모델 크기와 연산 비용의 증가를 초래했습니다.
중국 과학자팀(Siqi Zhang 외 6명)은 이러한 문제점을 해결하기 위해 COSMO(COmbination of Selective MemOrization) 라는 혁신적인 아키텍처를 제안했습니다. COSMO는 상태 공간 모듈과 트랜스포머 모듈을 통합하고, 두 가지 VLN 맞춤형 선택적 상태 공간 모듈인 Round Selective Scan (RSS) 와 Cross-modal Selective State Space Module (CS3) 을 도입했습니다.
- RSS는 단일 스캔 내에서 포괄적인 상호 모달 상호 작용을 가능하게 합니다.
- CS3는 선택적 상태 공간 모듈을 듀얼 스트림 아키텍처에 적용하여 상호 모달 상호 작용의 획득을 향상시킵니다.
즉, COSMO는 선택적으로 정보를 기억하고 처리하여 효율성을 높이는 전략을 사용합니다. REVERIE, R2R, R2R-CE 등 주요 VLN 벤치마크에서 COSMO는 기존 모델들과 경쟁력 있는 탐색 성능을 보였을 뿐만 아니라 연산 비용을 상당히 절감하는 놀라운 결과를 보여주었습니다. 이는 저렴한 비용으로 고성능 VLN 시스템 구축의 가능성을 열어주는 획기적인 성과입니다. 이는 마치 AI 집사가 더욱 저렴하고 효율적으로 우리의 명령을 이해하고 수행할 수 있게 된 것과 같습니다. 앞으로 COSMO가 스마트홈 기술 발전에 어떤 영향을 미칠지 기대됩니다!
Reference
[arxiv] COSMO: Combination of Selective Memorization for Low-cost Vision-and-Language Navigation
Published: (Updated: )
Author: Siqi Zhang, Yanyuan Qiao, Qunbo Wang, Zike Yan, Qi Wu, Zhihua Wei, Jing Liu
http://arxiv.org/abs/2503.24065v1