Vidi: 비디오 이해 및 편집을 위한 거대 다중 모달 모델의 탄생
Vidi는 시간적 검색에 뛰어난 성능을 보이는 대규모 다중 모달 모델로, 개선된 VUE-TR 벤치마크에서 기존 최고 모델들을 능가하며 비디오 편집 분야의 혁신을 이끌고 있습니다.

인터넷에서 비디오는 소통과 표현의 주요 매체가 되었습니다. 고품질의 대규모 비디오 콘텐츠 제작을 위해서는 원시 입력 자료(예: 카메라로 촬영한 편집되지 않은 영상)와 편집 구성 요소(예: 시각 효과)에 대한 포괄적인 이해가 필요합니다. 하지만, 비디오 편집 시나리오에서는 모델이 강력한 배경 지식을 바탕으로 다양한 모달리티(예: 비전, 오디오, 텍스트)를 처리하고, 유연한 입력 길이(예: 한 시간 길이의 원시 비디오)를 처리해야 하는 어려움이 있습니다.
이러한 문제를 해결하기 위해 Vidi 팀(Vidi Team, Celong Liu, Chia-Wen Kuo 외 다수)은 Vidi, 즉 다양한 비디오 이해 및 편집 시나리오를 위한 대규모 다중 모달 모델(LMMs) 을 소개했습니다. 첫 번째 버전은 시간적 검색에 초점을 맞추고 있습니다. 이는 입력 비디오 내에서 특정 텍스트 질의에 해당하는 시간 범위를 식별하는 작업으로, 지능형 편집에서 매우 중요한 역할을 합니다.
Vidi는 시간적 이해 능력이 뛰어나 한 시간 길이의 비디오를 처리하고, 특정 질의에 대한 시간 범위를 검색할 수 있습니다. 실제 시나리오에서의 포괄적인 평가를 지원하기 위해, 연구팀은 VUE-TR 벤치마크도 제시했습니다. VUE-TR은 다음과 같은 다섯 가지 주요 발전을 이루었습니다.
- 비디오 지속 시간: 기존 시간적 검색 데이터셋보다 훨씬 깁니다.
- 오디오 지원: 오디오 기반 질의를 포함합니다.
- 질의 형식: 다양한 질의 길이와 형식을 지원합니다.
- 주석 품질: 기준 시간 범위는 수동으로 주석이 지정됩니다.
- 평가 지표: 다중 시간 범위에 대한 평가를 지원하는 개선된 IoU 지표를 사용합니다.
놀랍게도 Vidi는 시간적 검색 작업에서 GPT-4o 및 Gemini와 같은 최고 수준의 독점 모델을 능가하는 성능을 보였습니다. 이는 비디오 편집 시나리오에서 Vidi의 우수성을 보여주는 강력한 증거입니다. 향후 Vidi의 발전과 다양한 비디오 편집 분야에서의 활용이 기대됩니다. 이는 단순한 기술의 발전을 넘어, 보다 효율적이고 창의적인 비디오 콘텐츠 제작의 새로운 지평을 열어줄 것으로 예상됩니다. 🎉
Reference
[arxiv] Vidi: Large Multimodal Models for Video Understanding and Editing
Published: (Updated: )
Author: Vidi Team, Celong Liu, Chia-Wen Kuo, Dawei Du, Fan Chen, Guang Chen, Jiamin Yuan, Lingxi Zhang, Lu Guo, Lusha Li, Longyin Wen, Qingyu Chen, Rachel Deng, Sijie Zhu, Stuart Siew, Tong Jin, Wei Lu, Wen Zhong, Xiaohui Shen, Xin Gu, Xing Mei, Xueqiong Qu
http://arxiv.org/abs/2504.15681v1