GPDiT: 장기 비디오 합성의 새로운 지평을 열다
중국과학원 연구팀이 개발한 GPDiT는 확산 모델과 자기회귀 모델을 결합하여 장기 비디오 합성의 품질과 효율성을 크게 향상시킨 혁신적인 모델입니다. 경량화된 어텐션과 회전 기반 시간 조건화 메커니즘을 통해 효율성을 높였으며, 소수 샷 학습에서도 뛰어난 성능을 보였습니다.

중국과학원의 Yuan Zhang을 비롯한 7명의 연구진이 발표한 논문이 AI 학계에 큰 파장을 일으키고 있습니다. 바로 GPDiT (Generative Pre-trained Autoregressive Diffusion Transformer) 라는 혁신적인 모델입니다. 이 모델은 기존의 비디오 합성 기술의 한계를 뛰어넘어, 자연스러운 움직임과 의미적 일관성을 갖춘 장기 비디오 합성을 가능하게 합니다.
확산 모델과 자기회귀 모델의 만남
GPDiT의 핵심은 확산 모델(diffusion model) 과 자기회귀 모델(autoregressive model) 의 장점을 결합한 데 있습니다. 기존의 모델들이 개별 프레임을 독립적으로 처리하는 것과 달리, GPDiT는 자기회귀 방식을 통해 이전 프레임을 기반으로 미래 프레임을 예측합니다. 여기에 확산 모델의 손실 함수를 적용하여 자연스러운 동작과 의미적 일관성을 확보합니다. 이는 단순히 이미지를 생성하는 것을 넘어, 비디오의 시간적 흐름과 의미를 보다 정확하게 이해하고 생성하는 것을 의미합니다.
효율성을 위한 혁신: 경량화된 어텐션과 회전 기반 시간 조건화
하지만, 자기회귀 모델은 연산량이 많아 효율성이 떨어질 수 있습니다. 연구팀은 이 문제를 해결하기 위해 경량화된 인과적 어텐션(lightweight causal attention) 변형과 매개변수 없는 회전 기반 시간 조건화 메커니즘(parameter-free rotation-based time-conditioning mechanism) 을 도입했습니다. 이를 통해 학습 및 추론의 효율성을 크게 향상시켰습니다.
놀라운 성능: 고품질 비디오 생성 및 소수 샷 학습
실험 결과, GPDiT는 비디오 생성 품질, 비디오 표현 능력, 소수 샷 학습(few-shot learning) 작업에서 모두 뛰어난 성능을 보였습니다. 특히 소수의 데이터만으로도 높은 품질의 비디오를 생성할 수 있다는 점은 매우 고무적입니다. 이는 기존의 방대한 데이터가 필요했던 비디오 합성 기술의 한계를 극복하는 중요한 진전입니다. GPDiT는 연속적인 잠재 공간(continuous latent space) 내에서 작동하여, 비디오 모델링의 새로운 가능성을 제시합니다.
결론: 미래 비디오 기술의 혁신
GPDiT는 단순한 기술적 발전을 넘어, 비디오 생성 및 이해 분야에 혁신을 가져올 잠재력을 가진 모델입니다. 향후 영화 제작, 게임 개발, VR/AR 기술 등 다양한 분야에 폭넓게 활용될 것으로 기대되며, 연구팀의 노력이 AI 기술 발전에 큰 기여를 할 것으로 예상됩니다. 앞으로 이 기술이 어떻게 발전하고 활용될지 지켜볼 필요가 있습니다.
Reference
[arxiv] Generative Pre-trained Autoregressive Diffusion Transformer
Published: (Updated: )
Author: Yuan Zhang, Jiacheng Jiang, Guoqing Ma, Zhiying Lu, Haoyang Huang, Jianlong Yuan, Nan Duan
http://arxiv.org/abs/2505.07344v3