텍스트와 이미지의 조화: 주제 일관성 비디오 생성 모델 'Phantom' 등장!
중국 연구진이 개발한 AI 기반 비디오 생성 모델 'Phantom'은 이미지와 텍스트를 결합하여 주제 일관성을 유지하는 비디오를 생성합니다. 단일 및 다중 주제 참조 이미지 모두에 대해 효과적이며, 특히 인물 생성에서 뛰어난 성능을 보입니다. 다양한 분야에 응용될 가능성을 제시하는 획기적인 연구입니다.

인공지능(AI) 기반 비디오 생성 기술이 급속도로 발전하고 있지만, 주제 일관성을 유지하면서 비디오를 생성하는 것은 여전히 풀어야 할 과제였습니다. 이러한 어려움을 해결하기 위해, Lijie Liu, Tianxiang Ma 등 중국 연구진이 개발한 새로운 비디오 생성 프레임워크 **'Phantom'**이 등장했습니다.
이미지와 텍스트의 만남: 주제 일관성의 핵심
Phantom은 기존의 텍스트-비디오 생성 모델과 이미지-비디오 생성 모델의 장점을 결합하여, 참조 이미지에서 주제 요소를 추출하고 텍스트 지시어를 통해 주제 일관성을 유지하는 비디오를 생성합니다. 이는 텍스트와 이미지라는 두 가지 모달의 프롬프트 간의 균형을 맞추는 것에 그 핵심이 있습니다. 연구진은 이를 위해 **'텍스트-이미지-비디오 삼중항 데이터'**를 활용한 교차 모달 정렬 학습 기법을 도입하여, 텍스트와 시각적 콘텐츠의 깊고 동시적인 정렬을 구현했습니다.
단일 및 다중 주제, 모두 가능!
Phantom의 가장 큰 특징 중 하나는 단일 및 다중 주제 참조 이미지 모두에 대해 효과적으로 작동한다는 점입니다. 즉, 하나의 이미지 뿐만 아니라 여러 이미지를 참조하여 비디오를 생성할 수 있다는 의미입니다. 또한, 기존의 ID 보존 비디오 생성 기술을 개선하여, 특히 인물 생성에서 주제 일관성을 크게 향상시켰습니다. 이는 단순히 외형적으로 같은 인물을 보여주는 것을 넘어, 인물의 행동과 표정 등에서도 일관성을 유지한다는 것을 의미합니다.
새로운 가능성을 열다
Phantom은 단순한 비디오 생성 모델을 넘어, 다양한 분야에 응용될 가능성을 제시합니다. 예를 들어, 영화 제작, 광고 제작, 교육 콘텐츠 제작 등에 활용될 수 있으며, 특히 인물 중심의 스토리텔링에 큰 영향을 미칠 것으로 예상됩니다. 연구진은 Phantom 프로젝트 홈페이지 (https://phantom-video.github.io/Phantom/)를 통해 더 자세한 정보를 제공하고 있습니다. 이들의 연구는 AI 기반 비디오 생성 기술의 새로운 장을 열 것으로 기대됩니다.
Reference
[arxiv] Phantom: Subject-consistent video generation via cross-modal alignment
Published: (Updated: )
Author: Lijie Liu, Tianxiang Ma, Bingchuan Li, Zhuowei Chen, Jiawei Liu, Qian He, Xinglong Wu
http://arxiv.org/abs/2502.11079v1