30FPS 이상의 변환기 놀이: 차세대 프레임 확산(NFD)
Xinle Cheng 등 연구진의 Next-Frame Diffusion (NFD) 논문은 블록 단위 인과적 어텐션, 일관성 증류, 예측적 샘플링이라는 혁신적인 기술을 통해 A100 GPU에서 3억 1천만 매개변수 모델로 초당 30프레임 이상의 실시간 자가회귀 비디오 생성을 달성, AI 기반 비디오 생성 기술의 새로운 가능성을 제시했습니다.

30FPS를 넘어선 AI 비디오 생성의 혁명: Next-Frame Diffusion (NFD)
최근 Xinle Cheng 등 6명의 연구진이 발표한 논문 "Playing with Transformer at 30+ FPS via Next-Frame Diffusion" 은 AI 분야에 센세이션을 불러일으키고 있습니다. 이 논문은 초당 30프레임(FPS) 이상의 실시간 자가회귀 비디오 생성을 달성한 놀라운 결과를 보여주고 있기 때문입니다. 이는 기존의 자가회귀 비디오 모델이 지닌 높은 계산 비용과 하드웨어 비효율성 문제를 극복한 쾌거라 할 수 있습니다.
기존의 양방향 확산 모델과 달리 자가회귀 비디오 모델은 상호작용형 비디오 콘텐츠 제작과 임의 길이의 스트리밍 애플리케이션에 유리한 장점을 가지고 있습니다. 하지만 실시간 생성은 여전히 난제였습니다. 연구진은 이 문제를 해결하기 위해 두 가지 혁신적인 기술을 도입했습니다.
첫째, 일관성 증류(consistency distillation)를 비디오 영역으로 확장하여 적은 샘플링 단계로 효율적인 추론을 가능하게 했습니다. 이는 마치 비디오 생성 과정의 지름길을 찾은 것과 같습니다. 둘째, 인접 프레임이 종종 동일한 액션 입력을 공유한다는 점에 착안하여 예측적 샘플링(speculative sampling) 기법을 제시했습니다. 이는 현재 액션 입력을 사용하여 다음 몇 프레임을 생성하고, 입력 액션이 다르면 예측적으로 생성된 프레임을 버리는 방식입니다. 이는 컴퓨팅 자원을 효율적으로 사용하는 전략입니다.
연구진은 대규모 액션 조건 비디오 생성 벤치마크 실험을 통해 NFD가 기존의 자가회귀 기반 모델보다 시각적 품질과 샘플링 효율성 모두에서 우수함을 증명했습니다. 특히, 3억 1천만 매개변수(310M) 모델을 사용하여 A100 GPU에서 초당 30프레임 이상의 자가회귀 비디오 생성을 달성한 것은 이번 연구의 가장 큰 성과입니다. 이는 AI 기반 실시간 비디오 생성 기술의 새로운 지평을 열었다는 평가를 받고 있습니다.
이러한 혁신적인 기술은 향후 인터랙티브 비디오 콘텐츠 제작, 고품질 실시간 스트리밍, 그리고 더 나아가 실감나는 가상현실(VR) 및 증강현실(AR) 경험 구현에 핵심적인 역할을 할 것으로 기대됩니다. NFD의 등장은 단순한 기술적 진보를 넘어, 우리의 디지털 경험을 풍요롭게 만들 미래 기술의 청사진을 제시하고 있습니다. 앞으로 더욱 발전된 AI 비디오 생성 기술의 등장이 기대됩니다.
Reference
[arxiv] Playing with Transformer at 30+ FPS via Next-Frame Diffusion
Published: (Updated: )
Author: Xinle Cheng, Tianyu He, Jiayi Xu, Junliang Guo, Di He, Jiang Bian
http://arxiv.org/abs/2506.01380v1