Video-Bench: 인간 중심의 영상 생성 벤치마크 등장!
Video-Bench는 인간의 평가 기준과 일치하는 영상 생성 모델 평가 벤치마크입니다. LLM을 활용하여 객관적이고 정확한 평가를 제공하며, 최첨단 모델들에 대한 실험 결과 우수한 성능을 보였습니다.

인공지능 영상 생성의 새로운 기준, Video-Bench
최근 급속도로 발전하는 인공지능(AI) 기술 중에서도 영상 생성 분야는 특히 주목받고 있습니다. 하지만, 생성된 영상의 질을 객관적으로 평가하는 것은 여전히 난제였습니다. 기존의 벤치마크들은 단순한 측정 지표나 임베딩에 의존하여 인간의 직관적인 판단과 차이를 보이는 경우가 많았습니다. 대규모 언어 모델(LLM) 기반 벤치마크도 있었지만, 영상 품질 측정에 대한 이해가 부족하거나 다양한 모달 간의 일관성을 유지하는 데 어려움을 겪었습니다.
이러한 한계를 극복하기 위해, Hui Han 등 13명의 연구자들이 개발한 Video-Bench가 등장했습니다. Video-Bench는 풍부한 프롬프트 세트와 다차원적인 평가 기준을 갖춘 포괄적인 벤치마크로, 인간의 선호도와 더욱 잘 맞춰진 평가를 제공합니다. 특히, 모든 평가 측면에서 LLM을 체계적으로 활용한 최초의 시도라는 점에서 큰 의미를 갖습니다.
Video-Bench의 핵심은 Few-shot scoring과 chain-of-query 기법을 활용하여 구조적이고 확장 가능한 평가 시스템을 구축했다는 것입니다. 이를 통해, 다양한 영상 생성 모델의 성능을 효율적이고 정확하게 비교 분석할 수 있습니다.
Sora를 포함한 최첨단 모델들을 대상으로 실험한 결과, Video-Bench는 모든 측면에서 인간의 평가와 높은 일치율을 보였습니다. 더욱 놀라운 것은, Video-Bench의 평가가 인간의 평가와 다를 경우에도, Video-Bench는 더 객관적이고 정확한 통찰력을 제공하는 것으로 나타났다는 점입니다. 이는 기존의 주관적인 인간 평가에 비해 Video-Bench가 훨씬 더 우수한 평가 시스템임을 시사합니다.
Video-Bench는 영상 생성 분야의 발전에 크게 기여할 것으로 예상됩니다. 더욱 객관적이고 정확한 평가 기준을 통해, 앞으로 더욱 현실적이고 고품질의 영상 생성 모델들이 개발될 것으로 기대됩니다. 이는 향후 영화, 게임, 광고 등 다양한 분야에서 혁신적인 변화를 가져올 수 있을 것입니다.
Reference
[arxiv] Video-Bench: Human-Aligned Video Generation Benchmark
Published: (Updated: )
Author: Hui Han, Siyuan Li, Jiaqi Chen, Yiwen Yuan, Yuling Wu, Chak Tou Leong, Hanwen Du, Junchen Fu, Youhua Li, Jie Zhang, Chi Zhang, Li-jia Li, Yongxin Ni
http://arxiv.org/abs/2504.04907v2