혁신적인 비디오 토크나이저 CDT: 안정적인 훈련과 최고 성능을 동시에!
중국과학원 연구진이 개발한 CDT(Conditioned Diffusion-based video Tokenizer)는 기존 GAN 기반 비디오 토크나이저의 복잡성을 극복하고, 확산 모델을 통해 안정적이고 효율적인 비디오 압축 및 생성을 가능하게 합니다. 단일 단계 샘플링으로 최첨단 성능을 달성했으며, 잠재 비디오 생성 분야에서도 우수한 결과를 보여줍니다.

꿈의 비디오 압축 기술, CDT 등장!
중국과학원(CAS) 연구진이 발표한 획기적인 연구 결과가 AI 업계에 큰 반향을 일으키고 있습니다. Yang Nianzu 박사를 비롯한 11명의 연구진은 기존의 복잡한 비디오 토크나이저 방식을 뛰어넘는 새로운 방법론, CDT(Conditioned Diffusion-based video Tokenizer) 를 제시했습니다.
기존 방식의 한계 극복: GAN의 어려움을 넘어서
기존 비디오 토크나이저는 주로 VAE(Variational Autoencoder) 아키텍처를 사용하여 비디오 압축 및 재구성을 수행합니다. 하지만 최고 성능을 위해서는 GAN(Generative Adversarial Networks)을 활용한 복잡한 다단계 훈련 과정이 필요했습니다. 특히 GAN 기반의 적대적 훈련은 안정적인 수렴을 방해하는 주요 걸림돌이었습니다. 이는 마치 정교한 기계를 조립하는 과정에서 핵심 부품의 조정이 매우 어려운 것과 같습니다.
CDT: 확산 모델의 안정성과 효율성을 결합하다
연구진은 이러한 문제를 해결하기 위해 GAN 대신 안정적인 훈련 과정과 고품질 결과를 제공하는 확산 모델을 도입했습니다. CDT는 인코더를 통해 공간-시간 정보를 압축된 잠재 벡터로 변환하고, 이를 조건으로 하는 조건부 인과 확산 모델을 통해 디코더가 비디오를 재구성합니다. 이는 마치 복잡한 그림을 간단한 코드로 변환하고 다시 완벽하게 복원하는 것과 같습니다.
더 나아가, CDT는 임의 길이의 비디오 생성을 위한 기능 캐시 메커니즘과 효율적인 샘플링 가속 기술을 채택했습니다. 단순한 MSE 확산 손실, KL 항, LPIPS 지각 손실만을 사용하여 훈련되었음에도 불구하고, CDT는 단일 단계 샘플링만으로 최첨단 성능을 달성했습니다. 심지어 축소된 버전의 CDT (3배의 추론 속도 향상)조차도 최상위 기준 모델과 비슷한 성능을 보였습니다.
놀라운 결과: 잠재 비디오 생성에서도 우수한 성능 입증
CDT를 사용하여 훈련된 잠재 비디오 생성 모델 또한 우수한 성능을 보였습니다. 이는 단순한 비디오 재구성을 넘어, 새로운 비디오 생성 및 편집 분야에서도 폭넓은 활용 가능성을 시사합니다. 연구팀은 GitHub (https://github.com/ali-vilab/CDT)를 통해 소스 코드와 사전 훈련된 가중치를 공개하여, 전 세계 연구자들이 CDT를 활용한 다양한 연구를 수행할 수 있도록 지원하고 있습니다.
결론: AI 비디오 기술의 새로운 지평을 열다
CDT는 단순한 기술적 개선을 넘어, AI 기반 비디오 처리 기술의 새로운 지평을 열었습니다. 안정적인 훈련 과정, 향상된 성능, 뛰어난 확장성은 앞으로 비디오 압축, 생성, 편집 분야의 혁신을 가속화할 것입니다. CDT의 등장은 보다 효율적이고 고품질의 비디오 기술을 향한 한 걸음 더 나아가는 중요한 이정표입니다.
Reference
[arxiv] Rethinking Video Tokenization: A Conditioned Diffusion-based Approach
Published: (Updated: )
Author: Nianzu Yang, Pandeng Li, Liming Zhao, Yang Li, Chen-Wei Xie, Yehui Tang, Xudong Lu, Zhihang Liu, Yun Zheng, Yu Liu, Junchi Yan
http://arxiv.org/abs/2503.03708v3