VideoPanda: 텍스트 또는 단일 영상으로 360° 파노라마 비디오를 생성하다!
Nvidia 토론토 AI 연구소의 VideoPanda는 텍스트 또는 단일 영상으로 360도 파노라마 비디오를 생성하는 혁신적인 기술입니다. 다중 뷰 어텐션 레이어와 효율적인 훈련 기법을 통해 실제 및 합성 데이터셋에서 기존 기술보다 우수한 성능을 보였습니다. VR, 게임 등 다양한 분야에 혁신을 가져올 잠재력을 지닌 기술입니다.

혁신적인 AI 기술: VideoPanda 소개
가상현실(VR)의 몰입형 경험을 위해서는 고해상도 파노라마 비디오가 필수적입니다. 하지만, 전문 장비와 복잡한 카메라 설정이 필요하여 제작이 쉽지 않았습니다. Nvidia 토론토 AI 연구소의 Kevin Xie 외 8명의 연구진은 이러한 어려움을 극복할 획기적인 기술, VideoPanda를 개발했습니다.
VideoPanda는 텍스트 또는 단일 영상 데이터를 기반으로 360° 비디오를 합성하는 새로운 접근 방식입니다. 핵심은 다중 뷰 어텐션 레이어를 활용한 영상 확산 모델입니다. 이를 통해 일관성 있는 다중 뷰 비디오를 생성하여 몰입형 파노라마 콘텐츠를 만들어냅니다. 단순히 이미지를 생성하는 것이 아닌, 시간에 따른 변화까지 고려한 비디오 생성이라는 점에서 매우 혁신적입니다.
VideoPanda의 핵심 기능 및 기술
- 두 가지 조건(텍스트 전용 및 단일 영상)을 이용한 공동 학습: 다양한 입력 조건에 대한 유연성을 확보했습니다.
- 자기 회귀적(autoregressive) 방식의 장시간 비디오 생성 지원: 긴 비디오도 부드럽게 생성할 수 있습니다.
- 계산 부하 감소를 위한 훈련 중 랜덤 하위 샘플링: 훈련 시 비디오의 지속 시간과 카메라 뷰를 임의로 하위 샘플링하여 효율성을 높였고, 추론 시 더 많은 프레임을 생성할 수 있도록 일반화했습니다.
놀라운 성능과 미래 전망
실제 및 합성 비디오 데이터셋에 대한 광범위한 평가 결과, VideoPanda는 기존 방법보다 현실적이고 일관성 있는 360° 파노라마를 생성하는 것으로 나타났습니다. (자세한 결과는 Nvidia 연구소 웹사이트 참조)
VideoPanda는 VR, 게임, 영화 등 다양한 분야에 혁신을 가져올 잠재력을 지니고 있습니다. 향후 발전을 통해 더욱 고품질의 파노라마 비디오 생성 및 실시간 처리 기술까지 기대할 수 있습니다. 이 기술은 단순한 비디오 생성을 넘어, 현실과 가상 세계의 경계를 허무는 몰입형 경험을 제공하는 중요한 발걸음이 될 것입니다.
참고: 본 기사는 Nvidia 연구소의 논문을 바탕으로 작성되었으며, 과학적 사실에 근거하여 작성되었습니다.
Reference
[arxiv] VideoPanda: Video Panoramic Diffusion with Multi-view Attention
Published: (Updated: )
Author: Kevin Xie, Amirmojtaba Sabour, Jiahui Huang, Despoina Paschalidou, Greg Klar, Umar Iqbal, Sanja Fidler, Xiaohui Zeng
http://arxiv.org/abs/2504.11389v2