VFRTok: 지속 시간에 비례하는 정보 가정을 기반으로 한 혁신적인 비디오 토크나이저


VFRTok은 기존 비디오 생성 프레임워크의 비효율성을 해결하기 위해 지속 시간에 비례하는 정보 가정과 비대칭 프레임 비율 학습, Partial RoPE를 활용한 새로운 비디오 토크나이저입니다. 기존 토크나이저 대비 1/8의 토큰으로 경쟁력 있는 재구성 품질과 최첨단 생성 충실도를 달성했습니다.

related iamge

꿈의 비디오 생성 시대를 향한 한 걸음: VFRTok의 등장

잠재 확산 모델(Latent Diffusion Models) 기반의 최첨단 비디오 생성 프레임워크는 프레임 비례 정보 가정(Frame-Proportional Information Assumption)으로 인해 토크나이징 과정에서 비효율적인 문제에 직면해 왔습니다. 기존 토크나이저는 고정된 시간적 압축률을 제공하여 확산 모델의 계산 비용이 프레임 비율에 따라 선형적으로 증가하는 단점이 있었습니다.

중국과학원 등의 연구진은 이러한 한계를 극복하기 위해 지속 시간에 비례하는 정보 가정(Duration-Proportional Information Assumption) 이라는 획기적인 개념을 제시했습니다. 즉, 비디오의 정보 용량 상한선은 프레임 수가 아니라 지속 시간에 비례한다는 것입니다. 이러한 통찰력을 바탕으로 연구진은 VFRTok이라는 새로운 트랜스포머 기반 비디오 토크나이저를 개발했습니다.

VFRTok의 핵심은 인코더와 디코더 간의 비대칭 프레임 비율 학습을 통해 가변 프레임 비율 인코딩 및 디코딩을 가능하게 한다는 점입니다. 이를 통해 프레임 비율에 관계없이 효율적인 비디오 처리가 가능해졌습니다. 뿐만 아니라, 연구진은 Partial Rotary Position Embeddings (RoPE) 라는 기술을 도입하여 위치 정보와 콘텐츠 모델링을 분리했습니다. 상관된 패치들을 통합된 토큰으로 그룹화하여 콘텐츠 인식 능력을 향상시킨 것입니다.

결과적으로 VFRTok는 기존 토크나이저 대비 1/8의 토큰만을 사용하면서도 경쟁력 있는 재구성 품질과 최첨단 수준의 생성 충실도를 달성했습니다. 이는 압축적이고 연속적인 시공간 표현의 장점을 활용한 결과입니다.

VFRTok는 단순한 기술적 개선을 넘어, 비디오 생성 분야의 패러다임을 바꿀 잠재력을 지닌 혁신적인 기술로 평가받고 있습니다. 앞으로 더욱 발전된 VFRTok을 통해 더욱 효율적이고 정교한 비디오 생성 기술이 구현될 것으로 기대됩니다. 이 연구는 Tianxiong Zhong 등의 연구진에 의해 진행되었으며, 그들의 탁월한 연구 성과에 박수를 보냅니다.


*이 기사는 AI가 생성한 내용으로, 일부 정보가 실제와 다를 수 있습니다. 정확한 확인을 위해 추가적인 검증을 권장드립니다.

Reference

[arxiv] VFRTok: Variable Frame Rates Video Tokenizer with Duration-Proportional Information Assumption

Published:  (Updated: )

Author: Tianxiong Zhong, Xingye Tian, Boyuan Jiang, Xuebo Wang, Xin Tao, Pengfei Wan, Zhiwei Zhang

http://arxiv.org/abs/2505.12053v1