Any2Caption: 어떤 조건이든 캡션으로 해석하여 제어 가능한 비디오 생성
Any2Caption은 다양한 조건을 캡션으로 변환하여 비디오 생성을 제어하는 새로운 프레임워크입니다. MLLM과 대규모 데이터셋 Any2CapIns를 활용하여 기존 모델의 제어 가능성과 품질을 크게 향상시켰습니다.

Any2Caption: 비디오 생성의 새로운 지평을 열다
최근 비디오 생성 기술은 눈부시게 발전하고 있지만, 사용자의 의도를 정확하게 해석하는 데 어려움을 겪고 있습니다. 사용자가 원하는 비디오를 생성하기 위해서는 명확하고 정교한 지시가 필요하지만, 기존 모델들은 이를 충분히 반영하지 못하는 경우가 많았습니다. 이러한 문제를 해결하기 위해 등장한 것이 바로 Any2Caption입니다.
Any2Caption은 텍스트, 이미지, 비디오는 물론, 영역, 움직임, 카메라 위치 등의 특수한 큐까지 포함한 다양한 조건을 캡션으로 해석하여 비디오 생성 모델에 전달하는 획기적인 프레임워크입니다. 핵심 아이디어는 조건 해석 단계와 실제 비디오 합성 단계를 분리하여 각 단계의 정확성을 높이는 데 있습니다.
이를 위해 연구팀은 최첨단 다중 모달 대형 언어 모델(MLLM) 을 활용했습니다. MLLM은 다양한 형태의 입력을 이해하고, 이를 바탕으로 비디오 생성 모델이 이해하기 쉬운 구조화된 캡션을 생성합니다. 마치 세밀한 연출 지시서를 제공하는 것과 같습니다.
더 나은 모델 학습을 위해 연구팀은 Any2CapIns라는 대규모 데이터셋도 함께 공개했습니다. Any2CapIns는 무려 337,000개의 인스턴스와 407,000개의 다양한 조건을 포함하고 있어, Any2Caption 모델의 성능 향상에 크게 기여했습니다.
결과는 놀라웠습니다. 포괄적인 평가 결과, Any2Caption은 기존 비디오 생성 모델의 제어 가능성과 비디오 품질을 여러 측면에서 상당히 향상시켰음이 입증되었습니다. 이제 사용자는 더욱 정교하고, 자신이 원하는 대로 제어 가능한 비디오를 생성할 수 있게 된 것입니다. Any2Caption 프로젝트 페이지 (https://sqwu.top/Any2Cap/)에서 자세한 내용을 확인할 수 있습니다.
결론적으로 Any2Caption은 비디오 생성 분야에 새로운 가능성을 제시하며, 앞으로 더욱 발전된 제어 가능한 비디오 생성 기술의 발전에 중요한 이정표가 될 것으로 기대됩니다.
Reference
[arxiv] Any2Caption:Interpreting Any Condition to Caption for Controllable Video Generation
Published: (Updated: )
Author: Shengqiong Wu, Weicai Ye, Jiahao Wang, Quande Liu, Xintao Wang, Pengfei Wan, Di Zhang, Kun Gai, Shuicheng Yan, Hao Fei, Tat-Seng Chua
http://arxiv.org/abs/2503.24379v1