텍스트-비디오 생성의 혁신: VidCapBench 벤치마크 등장
VidCapBench는 텍스트-비디오 생성 모델 훈련의 핵심인 비디오-캡션 정렬 문제를 해결하기 위해 개발된 벤치마크로, 다양한 정보를 고려한 포괄적인 평가와 전문가 모델 라벨링 및 사람의 검토를 통한 높은 정확성을 특징으로 합니다. 최첨단 캡션 모델 평가 및 T2V 품질 평가 지표와의 상관관계 분석을 통해 T2V 모델 훈련에 유용한 지침을 제공하며 Github에서 공개되어 활용 가능합니다.

최근 텍스트-비디오 생성(T2V) 기술이 급속도로 발전하고 있습니다. 하지만, T2V 모델 훈련의 핵심인 비디오와 캡션 간의 정렬 문제는 여전히 해결 과제로 남아있었습니다. 기존 연구들은 비디오 캡션 평가와 T2V 생성 평가를 연결하는 데 미흡한 점이 있었죠. 이러한 문제점을 해결하기 위해 등장한 것이 바로 VidCapBench입니다.
VidCapBench는 Xinlong Chen을 비롯한 10명의 연구진이 개발한, T2V 생성을 위한 비디오 캡션 평가 기준입니다. 기존의 캡션 형식에 국한되지 않고, 비디오의 미학적 요소, 콘텐츠, 움직임, 물리 법칙 등 다양한 정보를 종합적으로 고려하여 평가합니다. 단순히 캡션의 정확성만 평가하는 것이 아니라, 비디오의 전반적인 특징을 포괄적으로 평가하는 것이 핵심입니다.
이 벤치마크의 핵심은 전문가 모델 라벨링과 사람의 개선을 결합한 데이터 주석 파이프라인입니다. 전문가 모델의 초기 라벨링을 사람이 직접 검토하고 수정함으로써 정확성을 높였습니다. 또한, 자동 평가와 수동 평가를 병행하여, 빠른 평가와 정확한 평가를 모두 가능하게 했습니다. 이는 마치 장인이 정교한 시계를 만들듯, 빠르고 정확한 평가 시스템을 구축한 셈입니다.
연구진은 VidCapBench를 이용하여 여러 최첨단 캡션 모델을 평가하였고, 그 결과 VidCapBench가 기존 방식보다 훨씬 안정적이고 포괄적인 평가를 제공한다는 것을 확인했습니다. 더욱 놀라운 것은 VidCapBench 점수와 T2V 품질 평가 지표 간에 높은 상관관계가 발견되었다는 것입니다. 이는 VidCapBench가 T2V 모델 훈련에 실질적인 지침을 제공할 수 있음을 의미합니다.
이 연구는 단순히 새로운 벤치마크를 제시하는 것을 넘어, T2V 모델 개발의 새로운 장을 열었습니다. VidCapBench는 Github에서 공개되어 있으며, 누구든지 활용할 수 있습니다. (https://github.com/VidCapBench/VidCapBench) 이를 통해 보다 정교하고 효율적인 텍스트-비디오 생성 모델 개발이 가속화될 것으로 기대됩니다. 이제 텍스트만으로도 놀라운 비디오를 생성하는 시대가 더욱 가까워졌습니다! 🎉
Reference
[arxiv] VidCapBench: A Comprehensive Benchmark of Video Captioning for Controllable Text-to-Video Generation
Published: (Updated: )
Author: Xinlong Chen, Yuanxing Zhang, Chongling Rao, Yushuo Guan, Jiaheng Liu, Fuzheng Zhang, Chengru Song, Qiang Liu, Di Zhang, Tieniu Tan
http://arxiv.org/abs/2502.12782v1