VEU-Bench: 비디오 편집 이해의 새로운 지평을 열다


본 기사는 VEU-Bench라는 새로운 비디오 편집 이해 벤치마크와, 이를 통해 드러난 Vid-LLM의 한계 및 개선 방향을 소개합니다. 특히 VEU 전문 모델 Oscars의 개발과 VEU 데이터 활용의 중요성을 강조하며, 인공지능 기반 비디오 이해 기술의 미래를 조망합니다.

related iamge

인터넷 시대의 영상 편집: 우리는 얼마나 이해하고 있을까?

인터넷에 넘쳐나는 수많은 영상들. 그 중 대부분은 편집의 손길을 거친 결과물입니다. 최근 비디오 대규모 언어 모델(Vid-LLM)의 발전은 눈부시지만, 이러한 모델들이 비디오 편집 이해(VEU) 라는 난제 앞에서는 여전히 걸음마 단계에 머물러 있습니다.

Li Bozheng 등 10명의 연구진이 발표한 논문은 바로 이 점에 착안하여 VEU-Bench라는 획기적인 벤치마크를 소개합니다. VEU-Bench는 샷 크기와 같은 프레임 내 특징부터, 컷 유형이나 전환과 같은 샷 간 속성까지 다양한 차원에서 비디오 편집 요소를 분류합니다. 단순한 편집 요소 분류를 넘어, 인식, 추론, 판단 등 3단계에 걸쳐 19가지 세분화된 과제를 포함하고 있다는 점이 주목할 만합니다. 연구진은 온톨로지 기반 지식 베이스를 통합한 자동 주석 생성 파이프라인까지 구축하여 VEU-Bench의 완성도를 높였습니다.

Vid-LLM의 현주소: 예상치 못한 난관

11개의 최첨단 Vid-LLM을 대상으로 진행된 실험 결과는 충격적이었습니다. 일부 모델은 무작위 선택보다도 성능이 낮았습니다. 이는 Vid-LLM들이 VEU 작업에서 상당한 어려움을 겪고 있음을 시사합니다.

Oscars의 등장: VEU 전문가 모델

이러한 문제를 해결하기 위해 연구진은 VEU-Bench 데이터셋으로 미세 조정된 Oscars라는 전문 모델을 개발했습니다. Oscars는 기존 오픈소스 Vid-LLM보다 정확도가 28.3% 이상 높으며, GPT-4o와 같은 상용 모델과 비슷한 성능을 달성했습니다. 더 나아가, VEU 데이터를 활용하여 일반적인 비디오 이해 벤치마크에서 Vid-LLM의 성능을 평균 8.3% 향상시키는 놀라운 결과를 얻었습니다.

미래를 향한 전망: VEU-Bench가 제시하는 가능성

VEU-Bench는 단순한 벤치마크를 넘어, 비디오 편집 기술의 미래를 엿볼 수 있는 창구입니다. Vid-LLM의 한계를 명확히 제시함과 동시에, 더욱 발전된 모델 개발을 위한 중요한 이정표를 제시했습니다. Oscars의 성공은 VEU 데이터의 중요성을 보여주는 동시에, 앞으로 Vid-LLM이 더욱 정교하고 다양한 비디오 이해 능력을 갖추게 될 가능성을 시사합니다. 이 연구는 단순한 기술적 발전을 넘어, 인공지능이 우리의 시각적 정보를 이해하고 해석하는 방식에 대한 새로운 패러다임을 제시하고 있습니다.


*이 기사는 AI가 생성한 내용으로, 일부 정보가 실제와 다를 수 있습니다. 정확한 확인을 위해 추가적인 검증을 권장드립니다.

Reference

[arxiv] VEU-Bench: Towards Comprehensive Understanding of Video Editing

Published:  (Updated: )

Author: Bozheng Li, Yongliang Wu, Yi Lu, Jiashuo Yu, Licheng Tang, Jiawang Cao, Wenqing Zhu, Yuyang Sun, Jay Wu, Wenbo Zhu

http://arxiv.org/abs/2504.17828v1