Vidi: 비디오 이해 및 편집을 위한 거대 다중 모달 모델의 탄생
Vidi는 시간적 이해 능력이 뛰어난 대규모 다중 모달 모델로, 긴 비디오를 처리하고 텍스트 질의에 해당하는 시간 범위를 식별하는 데 탁월한 성능을 보입니다. 새로운 VUE-TR 벤치마크를 통해 실제 시나리오에서의 성능을 검증하였으며, 기존 최첨단 모델들을 능가하는 결과를 얻었습니다. Vidi는 영상 편집 분야의 혁신을 이끌 차세대 기술로 평가받고 있습니다.

Vidi: 비디오 이해 및 편집의 새로운 지평을 열다
인터넷 시대, 비디오는 소통과 표현의 주요 매체로 자리 잡았습니다. 고품질의 대규모 비디오 콘텐츠 제작을 위해서는 원시 영상과 편집 요소를 모두 포괄적으로 이해하는 것이 필수적입니다. 하지만 기존 모델들은 긴 영상 처리, 다양한 모달리티(시각, 음성, 텍스트) 처리, 유연한 입력 길이 처리 등에 어려움을 겪었습니다.
이러한 문제를 해결하기 위해 등장한 것이 바로 Vidi, 대규모 다중 모달 모델(LMM) 입니다. Vidi는 다양한 비디오 이해 및 편집 시나리오에 적용될 수 있으며, 첫 번째 버전은 시간적 검색(temporal retrieval) 에 초점을 맞추고 있습니다. 즉, 입력 비디오 내에서 주어진 텍스트 질의에 해당하는 시간 범위를 식별하는 기능입니다. Vidi는 시간적 이해 능력이 뛰어나, 시간이 긴 비디오(한 시간짜리 영상도 가능)를 처리하고 특정 질의에 대한 시간 범위를 정확하게 찾아낼 수 있습니다.
실제 시나리오에서 Vidi의 성능을 측정하기 위해 VUE-TR 벤치마크가 새롭게 제시되었습니다. VUE-TR은 기존 데이터셋보다 훨씬 긴 비디오, 오디오 기반 질의 지원, 다양한 질의 길이/형식, 수동으로 주석이 달린 정확한 기준 시간 범위, 개선된 IoU 지표 등 다섯 가지 핵심적인 발전을 이루었습니다. 그 결과, Vidi는 GPT-4o나 Gemini와 같은 최첨단 독점 모델들을 시간적 검색 작업에서 압도적으로 능가하는 성능을 보였습니다. 이는 Vidi가 영상 편집 분야에서 뛰어난 성능을 가짐을 의미합니다.
결론적으로, Vidi는 비디오 이해와 편집 기술에 혁신을 가져올 잠재력을 가진 모델입니다. 시간적 검색 기능을 넘어 다양한 영상 편집 작업에 적용될 Vidi의 미래 발전이 기대됩니다. 또한, VUE-TR 벤치마크는 영상 이해 및 편집 분야 연구의 발전에 크게 기여할 것으로 보입니다.
Reference
[arxiv] Vidi: Large Multimodal Models for Video Understanding and Editing
Published: (Updated: )
Author: Vidi Team, Celong Liu, Chia-Wen Kuo, Dawei Du, Fan Chen, Guang Chen, Jiamin Yuan, Lingxi Zhang, Lu Guo, Lusha Li, Longyin Wen, Qingyu Chen, Rachel Deng, Sijie Zhu, Stuart Siew, Tong Jin, Wei Lu, Wen Zhong, Xiaohui Shen, Xin Gu, Xing Mei, Xueqiong Qu
http://arxiv.org/abs/2504.15681v2