마보스(Mavors): 멀티모달 대규모 언어 모델을 위한 혁신적인 비디오 표현 방식
Yang Shi 등의 연구팀이 개발한 Mavors는 멀티모달 대규모 언어 모델에서 장시간 비디오 이해의 효율성과 정확성을 동시에 높이는 혁신적인 프레임워크입니다. 고해상도 공간 특징 보존과 시간적 일관성 확보를 통해 기존 방법들을 능가하는 성능을 보이며, 이미지와 비디오 이해를 통합하는 새로운 접근 방식을 제시합니다.

멀티모달 대규모 언어 모델의 새로운 지평을 열다: Mavors
최근 멀티모달 대규모 언어 모델(MLLM) 분야에서 장시간 비디오 이해는 뜨거운 감자입니다. 계산 효율성과 세밀한 시공간 패턴 유지를 동시에 달성하는 것이 어려웠기 때문이죠. 기존의 희소 샘플링, 저해상도 밀집 샘플링, 토큰 압축 등의 방법들은 시간 역학, 공간적 세부 정보, 미묘한 상호 작용의 정보 손실이 심각했습니다. 특히 복잡한 움직임이나 다양한 해상도의 비디오에서는 더욱 그랬습니다.
하지만 이제 희망이 있습니다! Yang Shi 등 15명의 연구자들은 Mavors라는 혁신적인 프레임워크를 제시했습니다. Mavors는 다중 해상도 비디오 표현(Multi-granularity Video Representation) 을 통해 이 문제를 해결합니다. 핵심은 두 가지 구성 요소에 있습니다.
- Intra-chunk Vision Encoder (IVE): 3D 합성곱과 비전 트랜스포머를 사용하여 고해상도 공간 특징을 보존합니다. 마치 비디오의 디테일을 현미경으로 들여다보는 것처럼 세밀하게 분석하는 것이죠.
- Inter-chunk Feature Aggregator (IFA): 청크 단위 회전 위치 인코딩을 사용한 트랜스포머 기반 의존성 모델링을 통해 청크 간의 시간적 일관성을 확립합니다. 비디오의 흐름을 시간의 흐름에 따라 매끄럽게 연결하는 역할을 수행합니다.
더욱 놀라운 것은, Mavors가 이미지를 단일 프레임 비디오로 처리하여 이미지와 비디오 이해를 통합한다는 점입니다. 하나의 프레임워크로 이미지와 비디오를 모두 처리할 수 있다는 것은 엄청난 효율성을 의미합니다. 이는 부분 이미지 분해를 통해 가능해집니다.
다양한 벤치마크 실험 결과, Mavors는 공간 정확도와 시간적 연속성을 모두 유지하는 우수한 성능을 보였습니다. 세밀한 시공간 추론이 필요한 작업에서 기존 방법들을 크게 능가하는 성능을 보여주었습니다. Mavors는 멀티모달 대규모 언어 모델의 비디오 이해 능력에 혁신을 가져올 잠재력을 가지고 있습니다. 앞으로 이 기술이 어떻게 발전하고 활용될지 기대됩니다!
Reference
[arxiv] Mavors: Multi-granularity Video Representation for Multimodal Large Language Model
Published: (Updated: )
Author: Yang Shi, Jiaheng Liu, Yushuo Guan, Zhenhua Wu, Yuanxing Zhang, Zihao Wang, Weihong Lin, Jingyun Hua, Zekun Wang, Xinlong Chen, Bohan Zeng, Wentao Zhang, Fuzheng Zhang, Wenjing Yang, Di Zhang
http://arxiv.org/abs/2504.10068v1