240억 파라미터의 거대 언어 모델 MAGI-1: 텍스트로 비디오를 만드는 혁신

Sand.ai 연구진이 개발한 240억 파라미터의 자기회귀적 비디오 생성 모델 MAGI-1은 텍스트 프롬프트를 기반으로 시간적 일관성과 확장성을 갖춘 비디오 생성을 가능하게 합니다. 청크 단위 프롬프팅과 메모리 효율적인 실시간 배포 기능을 통해 실용적인 활용 가능성을 높였습니다.

Sand.ai를 비롯한 다수의 연구진이 개발한 MAGI-1은 최근 AI 분야에 혁신적인 돌파구를 제시하고 있습니다. 무려 240억 개의 파라미터를 가진 이 거대 언어 모델은 텍스트 프롬프트만으로도 고품질의 비디오를 생성할 수 있습니다. 이는 단순한 이미지 생성을 넘어, 시간적 흐름을 가진 비디오 콘텐츠 생성의 새로운 지평을 열었다는 점에서 매우 중요한 의미를 지닙니다.

MAGI-1의 핵심은 자기회귀적 비디오 생성 방식에 있습니다. 비디오를 고정 길이의 청크(연속 프레임) 단위로 나누어 순차적으로 예측하는 이 방식은 시간적 일관성을 유지하면서 동시에 스트리밍 생성을 가능하게 합니다. 이는 기존 모델들이 겪었던 시간적 불일치나 처리 속도의 문제를 효과적으로 해결한 혁신적인 기술입니다. 마치 이야기의 흐름을 자연스럽게 따라가듯, 프레임이 이어지는 매끄러운 영상을 생성하는 것이죠.

더욱 놀라운 점은 MAGI-1의 확장성과 효율성입니다. 청크 단위 프롬프팅을 통해 사용자는 생성 과정을 세밀하게 제어할 수 있습니다. 또한, 비디오 길이에 관계없이 일정한 최대 추론 비용을 유지하는 메모리 효율적인 실시간 배포가 가능하여, 실제 서비스 적용에 있어서도 큰 장점을 지닙니다. 이는 단순한 기술적 진보를 넘어, 실용적인 AI 애플리케이션 개발에 중요한 발걸음을 내딛은 것을 의미합니다.

MAGI-1은 최대 4백만 토큰의 긴 컨텍스트를 처리할 수 있으며, Sand.ai의 GitHub 레포지토리 (https://github.com/SandAI-org/MAGI-1 와 https://github.com/SandAI-org/MagiAttention) 에서 코드와 모델을 공개하고 있습니다. 실제 서비스는 https://sand.ai 에서 접근 가능합니다. 앞으로 MAGI-1이 어떤 놀라운 결과물들을 만들어낼지 기대됩니다. 이 기술은 영화 제작, 게임 개발, 교육 등 다양한 분야에 혁신적인 변화를 가져올 가능성을 가지고 있습니다. 하지만 동시에 윤리적 문제와 책임 있는 사용에 대한 고려 또한 필요할 것입니다.

*이 기사는 AI가 생성한 내용으로, 일부 정보가 실제와 다를 수 있습니다. 정확한 확인을 위해 추가적인 검증을 권장드립니다.

Reference

[arxiv] MAGI-1: Autoregressive Video Generation at Scale

Published: (Updated: )

Author: Sand. ai, Hansi Teng, Hongyu Jia, Lei Sun, Lingzhi Li, Maolin Li, Mingqiu Tang, Shuai Han, Tianning Zhang, W. Q. Zhang, Weifeng Luo, Xiaoyang Kang, Yuchen Sun, Yue Cao, Yunpeng Huang, Yutong Lin, Yuxin Fang, Zewei Tao, Zheng Zhang, Zhongshu Wang, Zixun Liu, Dai Shi, Guoli Su, Hanwen Sun, Hong Pan, Jie Wang, Jiexin Sheng, Min Cui, Min Hu, Ming Yan, Shucheng Yin, Siran Zhang, Tingting Liu, Xianping Yin, Xiaoyu Yang, Xin Song, Xuan Hu, Yankai Zhang, Yuqiao Li

http://arxiv.org/abs/2505.13211v1