Video-Bench: 인간 중심의 비디오 생성 벤치마크 등장!
인간의 기준에 맞춘 비디오 생성 모델 평가 벤치마크 Video-Bench가 개발되었습니다. MLLM을 활용하여 기존 방식의 한계를 극복하고, 최첨단 모델 실험을 통해 우수성을 검증했습니다. 인간의 판단과 높은 일치율을 보이며, 더욱 객관적이고 정확한 평가를 가능하게 합니다.

인공지능(AI)의 눈부신 발전과 함께, 비디오 생성 기술 또한 급속도로 성장하고 있습니다.
하지만, 생성된 비디오의 질을 어떻게 객관적으로 평가할 것인가는 여전히 풀어야 할 과제였습니다. 기존의 벤치마크는 단순한 수치나 임베딩을 사용하여 평가했기에, 사람의 주관적인 판단과 차이가 발생하는 경우가 많았습니다. 또한, 거대 언어 모델(LLM) 기반 벤치마크는 비디오 품질에 대한 이해가 부족하고, 여러 모달 간의 일관성이 떨어지는 한계를 가지고 있었습니다.
그 해답을 제시하는 획기적인 연구가 등장했습니다!
중국과 홍콩의 연구진들이 공동으로 개발한 Video-Bench는 인간의 기준에 맞춰 비디오 생성 모델을 평가하는 혁신적인 벤치마크입니다. 풍부한 프롬프트 세트와 다양한 평가 기준을 갖춘 Video-Bench는 최초로 MLLM을 비디오 생성 평가의 모든 측면에 체계적으로 활용한 시도입니다. Few-shot scoring과 chain-of-query 기술을 활용하여 구조적이고 확장 가능한 접근 방식을 제공합니다.
Video-Bench의 핵심은 무엇일까요?
- 인간 중심 평가: 인간의 선호도에 더욱 부합하는 평가 결과 도출
- MLLM 활용: 거대 언어 모델을 통해 더욱 정확하고 객관적인 평가 가능
- 구조적이고 확장 가능: Few-shot scoring과 chain-of-query 기술을 통해 체계적이고 확장성 있는 평가 시스템 구축
- 최첨단 모델 실험: Sora와 같은 최첨단 모델을 통해 성능 검증 완료
실험 결과, Video-Bench는 모든 측면에서 인간의 판단과 높은 일치율을 보였습니다. 심지어 기존의 인간 평가와 다르게 평가된 경우에도, Video-Bench는 더 객관적이고 정확한 통찰력을 제공했습니다. 이는 기존의 인간 중심 평가 방식에 비해 훨씬 큰 장점을 제공함을 시사합니다.
Video-Bench는 비디오 생성 분야의 혁신적인 발전을 이끌 것으로 기대됩니다. 더욱 정확하고 객관적인 평가 기준을 제공함으로써, AI 비디오 생성 기술의 발전을 가속화하고, 더욱 높은 품질의 비디오 생성을 가능하게 할 것입니다. 앞으로 Video-Bench가 어떻게 활용되고 발전될지 기대하며 지켜봐야 할 것입니다. 이는 단순한 기술적 발전을 넘어, 인간과 AI의 조화로운 공존을 위한 중요한 한 걸음이 될 것입니다.
Reference
[arxiv] Video-Bench: Human-Aligned Video Generation Benchmark
Published: (Updated: )
Author: Hui Han, Siyuan Li, Jiaqi Chen, Yiwen Yuan, Yuling Wu, Chak Tou Leong, Hanwen Du, Junchen Fu, Youhua Li, Jie Zhang, Chi Zhang, Li-jia Li, Yongxin Ni
http://arxiv.org/abs/2504.04907v1