혁신적인 텍스트-비디오 생성 기술: EIDT-V 모델의 등장
Diljeet Jagpal, Xi Chen, Vinay P. Namboodiri 연구팀이 개발한 EIDT-V 모델은 확산 경로의 교차점을 활용하여 모델 독립적, 제로샷, 학습 없는 텍스트-비디오 생성을 가능하게 합니다. LLM과 CLIP 기반 어텐션 마스크를 통해 프레임 간 일관성과 다양성을 제어하며, 정량적 지표 및 사용자 연구를 통해 우수한 성능을 검증받았습니다.

최근 이미지 기반 확산 모델을 이용한 제로샷, 학습 없는 텍스트-비디오 생성 기술이 급부상하고 있습니다. 하지만 기존 방식들은 특정 모델 구조 변경을 필요로 하여 확장성과 적용성에 제약이 있었습니다. Diljeet Jagpal, Xi Chen, Vinay P. Namboodiri 연구팀은 이러한 한계를 극복하는 획기적인 모델, EIDT-V (Exploiting Intersections in Diffusion Trajectories for Model-Agnostic, Zero-Shot, Training-Free Text-to-Video Generation) 를 개발했습니다.
EIDT-V의 핵심은 확산 경로의 교차점을 활용하는 것입니다. 기존 방식과 달리, 이미지 생성 모델의 구조 변경 없이 잠재값(latent values)만을 사용하여 모델 독립적인 접근 방식을 구현했습니다. 단순히 경로의 교차점만을 사용해서는 프레임 간의 일관성과 다양성을 확보하기 어렵다는 점을 발견한 연구팀은 격자 기반(grid-based) 접근법을 도입했습니다. 여기서 컨텍스트 학습된 거대 언어 모델(LLM) 두 개가 중요한 역할을 합니다. 하나는 프레임 단위의 일관된 프롬프트를 생성하고, 다른 하나는 프레임 간의 차이점을 식별하는 데 사용됩니다.
이렇게 얻어진 정보를 바탕으로 CLIP 기반 어텐션 마스크를 생성하여 각 격자 셀에 대한 프롬프트 전환 시점을 제어합니다. 전환 시점이 빠를수록 다양성이 높아지고, 늦을수록 일관성이 높아지는 것을 확인했습니다. 즉, EIDT-V는 프레임 간의 일관성과 다양성을 적절히 조절할 수 있는 능력을 갖춘 것입니다.
연구팀은 정량적 지표와 사용자 연구를 통해 EIDT-V의 우수성을 검증했습니다. 그 결과, 기존 모델 대비 뛰어난 시간적 일관성, 시각적 충실도, 그리고 사용자 만족도를 달성하여 학습 없이 이미지 기반 텍스트-비디오 생성이 가능함을 입증했습니다. EIDT-V는 다양한 이미지 생성 모델과의 호환성이 높다는 점에서 향후 텍스트-비디오 생성 기술 발전에 중요한 이정표를 세웠다고 평가할 수 있습니다.
EIDT-V의 혁신적인 점을 다시 한번 정리하면:
- 모델 독립적: 다양한 이미지 생성 모델에 적용 가능
- 제로샷: 별도의 학습 과정 없이 작동
- 학습 없음: 사전 훈련 데이터가 필요 없음
- 격자 기반 접근: 프레임 간 일관성과 다양성 제어 향상
- LLM 활용: 프롬프트 생성 및 프레임 차이 식별
- CLIP 기반 어텐션 마스크: 프롬프트 전환 시점 제어
- 우수한 성능: 정량적 지표 및 사용자 연구를 통한 검증
Reference
[arxiv] EIDT-V: Exploiting Intersections in Diffusion Trajectories for Model-Agnostic, Zero-Shot, Training-Free Text-to-Video Generation
Published: (Updated: )
Author: Diljeet Jagpal, Xi Chen, Vinay P. Namboodiri
http://arxiv.org/abs/2504.06861v1