GPDiT: 확산 모델과 자기회귀 모델의 만남, 장기 비디오 합성의 새로운 지평을 열다
GPDiT는 확산 모델과 자기회귀 모델의 장점을 결합한 혁신적인 비디오 생성 모델로, 연속 잠재 공간에서의 자기회귀적 예측을 통해 고품질의 장기 비디오 합성을 가능하게 합니다. 경량화된 인과적 어텐션과 매개변수 없는 시간 조건 메커니즘을 통해 효율성을 높였으며, 비디오 생성 품질, 표현 능력, 소수 샷 학습에서 뛰어난 성능을 보였습니다.

중국과학원 및 기타 연구 기관의 연구진이 개발한 GPDiT(Generative Pre-trained Autoregressive Diffusion Transformer) 는 인공지능 기반 비디오 생성 분야에 혁신적인 돌파구를 마련했습니다. GPDiT는 기존의 자기회귀 모델과 확산 모델의 강점을 결합하여 장기 비디오 합성의 품질과 효율성을 크게 향상시켰습니다.
기존의 모델들은 이산 토큰(discrete tokens)을 예측하는 데 초점을 맞춰왔습니다. 반면 GPDiT는 연속적인 잠재 공간(continuous latent space) 에서 미래의 잠재 프레임을 자기회귀적으로 예측합니다. 이는 확산 손실(diffusion loss)을 활용하여 이루어지며, 이를 통해 자연스러운 동작 역학(motion dynamics) 과 프레임 간의 의미 일관성(semantic consistency) 을 유지하는 고품질 비디오 생성이 가능해집니다. 단순히 이미지를 생성하는 것을 넘어, 비디오의 의미를 이해하고 표현하는 능력까지 갖추게 된 것입니다.
더 나아가, 연구진은 경량화된 인과적 어텐션 변형(lightweight causal attention variant) 과 매개변수가 없는 회전 기반 시간 조건 메커니즘(parameter-free rotation-based time-conditioning mechanism) 을 도입했습니다. 이는 모델의 훈련과 추론 과정에서의 효율성을 크게 높여줍니다. 즉, 더 빠르고 효율적으로 고품질 비디오를 생성할 수 있게 된 것입니다.
다양한 실험 결과, GPDiT는 비디오 생성 품질, 비디오 표현 능력, 그리고 소수 샷 학습(few-shot learning) 작업에서 뛰어난 성능을 보였습니다. 이는 GPDiT가 연속 공간에서의 비디오 모델링을 위한 효과적인 프레임워크임을 보여주는 강력한 증거입니다. GPDiT는 단순한 기술적 진보를 넘어, 영화 제작, 게임 개발, 가상현실 등 다양한 분야에 혁신적인 변화를 가져올 잠재력을 지니고 있습니다. 앞으로 GPDiT의 발전과 응용 분야 확장에 대한 기대가 높아지고 있습니다.
주요 연구자: Yuan Zhang, Jiacheng Jiang, Guoqing Ma, Zhiying Lu, Haoyang Huang, Jianlong Yuan, Nan Duan
Reference
[arxiv] Generative Pre-trained Autoregressive Diffusion Transformer
Published: (Updated: )
Author: Yuan Zhang, Jiacheng Jiang, Guoqing Ma, Zhiying Lu, Haoyang Huang, Jianlong Yuan, Nan Duan
http://arxiv.org/abs/2505.07344v1