물리 법칙을 이해하는 AI: 현실감 넘치는 영상 생성의 혁신
중국과 홍콩 연구진이 물리 법칙을 고려한 새로운 영상 생성 프레임워크를 제시. 비전 언어 모델(VLM)과 비디오 확산 모델(VDM)을 결합하여 물리적으로 사실적인 영상 생성에 성공. 향후 AI 기반 영상 생성 기술 발전에 중요한 의미를 가짐.

최근 비디오 확산 모델(VDM)의 발전은 놀랍습니다. 실제와 똑같은 영상을 만들어내며, 마치 현실 세계를 시뮬레이션하는 듯한 능력을 보여주고 있죠. 하지만, 아직 한계가 있습니다. 바로 물리적 사실성입니다. VDM은 물리 법칙을 제대로 이해하지 못하기 때문에, 영상 속 물체의 움직임이나 사건 순서가 비현실적으로 보이는 경우가 많습니다.
이 문제를 해결하기 위해, 양신디(Xindi Yang) 등 중국과 홍콩의 연구진 11명은 획기적인 연구 결과를 발표했습니다. 그들은 두 단계로 이루어진 새로운 영상 생성 프레임워크를 제안했는데요, 여기에는 물리 법칙이 명시적으로 포함되어 있습니다.
1단계: 비전 언어 모델(VLM)을 이용한 물리 기반 동작 계획
먼저, VLM을 활용하여 영상 속 물체의 거친 움직임 경로를 예측합니다. 단순히 움직임만 예측하는 것이 아니라, 체인 오브 쏘트(Chain-of-Thought) 기법과 물리적 추론을 결합하여 실제 세계의 물리적 동작을 근사하는 동작 경로를 만들어냅니다. 이를 통해 프레임 간의 일관성도 유지합니다. 마치, 영상의 '스토리보드'를 물리 법칙에 따라 미리 작성하는 것이라고 생각할 수 있습니다.
2단계: VDM을 이용한 세부 동작 생성
1단계에서 얻은 거친 움직임 경로를 바탕으로, VDM을 이용하여 보다 세밀한 움직임을 생성합니다. 단순히 경로만 따라가는 것이 아니라, 추론 과정에 노이즈를 추가하여 VDM이 더욱 자유롭게 디테일한 움직임을 만들도록 합니다. 마치, 스케치를 바탕으로 섬세한 그림을 완성하는 화가와 같습니다.
연구진은 광범위한 실험을 통해 이 프레임워크가 물리적으로 사실적인 움직임을 생성할 수 있음을 입증했습니다. 기존 방법과 비교한 결과에서도 압도적인 우수성을 보였습니다. 자세한 내용은 프로젝트 페이지 (https://madaoer.github.io/projects/physically_plausible_video_generation)에서 확인할 수 있습니다.
이 연구는 AI가 물리적 세계를 이해하고, 이를 바탕으로 더욱 현실감 넘치는 영상을 생성하는 데 한 걸음 더 다가섰음을 보여줍니다. 향후 AI 기반 영상 생성 기술의 발전에 중요한 이정표가 될 것으로 기대됩니다. 물리 법칙을 이해하는 AI, 그 가능성은 무궁무진합니다!
Reference
[arxiv] Towards Physically Plausible Video Generation via VLM Planning
Published: (Updated: )
Author: Xindi Yang, Baolu Li, Yiming Zhang, Zhenfei Yin, Lei Bai, Liqian Ma, Zhiyong Wang, Jianfei Cai, Tien-Tsin Wong, Huchuan Lu, Xu Jia
http://arxiv.org/abs/2503.23368v2