비디오 생성의 혁신: 테스트 시간 확장(TTS)의 힘
류방부 등 연구진의 "Video-T1" 논문은 테스트 시간 확장(TTS) 기법을 활용하여 비디오 생성 품질을 향상시키는 새로운 방법을 제시합니다. 가우시안 노이즈 공간에서 최적의 비디오 궤적을 찾는 검색 문제로 재해석하고, Tree-of-Frames(ToF) 방법을 통해 효율성을 높였습니다. 실험 결과, 테스트 시간 컴퓨팅 증가가 비디오 품질 향상으로 이어짐을 확인했습니다.

더 나은 비디오 생성을 위한 새로운 접근법: 테스트 시간 확장(TTS)
최근 비디오 생성 분야는 훈련 데이터, 모델 크기, 컴퓨팅 비용의 증가라는 규모 확장을 통해 놀라운 발전을 이루었습니다. 이는 사용자들이 다양한 영역에서 창의력을 표현할 수 있도록 하는 디지털 창작의 혁명을 이끌었습니다. 하지만 이러한 발전은 막대한 훈련 비용을 수반합니다.
류방부(Fangfu Liu) 등 연구진이 발표한 논문 "Video-T1: Test-Time Scaling for Video Generation"은 이러한 문제에 대한 새로운 해결책을 제시합니다. 대규모 언어 모델(LLM)에서 활용되는 테스트 시간 확장(TTS) 기법을 비디오 생성에 적용하여 훈련 비용 증가 없이도 비디오 생성 품질을 향상시킬 수 있다는 것을 보여주는 것입니다.
연구진은 비디오 생성의 TTS를 가우시안 노이즈 공간에서 목표 비디오 분포로 이어지는 최적의 궤적을 찾는 검색 문제로 재해석했습니다. 이를 위해 테스트 시간 검증기를 활용하여 피드백을 제공하고, 휴리스틱 알고리즘으로 검색 과정을 안내하는 검색 공간을 구축했습니다. 텍스트 프롬프트가 주어지면, 먼저 추론 시간에 노이즈 후보를 늘리는 직관적인 선형 검색 전략을 탐색합니다.
하지만 모든 프레임을 동시에 디노이징하는 것은 막대한 테스트 시간 컴퓨팅 비용을 필요로 합니다. 이에 연구진은 Tree-of-Frames(ToF) 라는 효율적인 TTS 방법을 설계했습니다. ToF는 자동 회귀 방식으로 비디오 가지를 적응적으로 확장하고 가지치기하여 계산 비용을 줄입니다.
다양한 텍스트 조건 비디오 생성 벤치마크에 대한 광범위한 실험 결과, 테스트 시간 컴퓨팅을 늘리면 비디오 품질이 일관되게 향상되는 것을 확인했습니다. 이는 훈련 비용을 증가시키지 않고도 비디오 생성의 질을 높일 수 있는 새로운 가능성을 제시합니다. 자세한 내용은 프로젝트 페이지 (https://liuff19.github.io/Video-T1)를 참조하세요.
결론적으로, 이 연구는 비디오 생성 분야에 TTS 기법을 효과적으로 적용하여 훈련 비용을 절감하면서도 비디오 품질을 향상시키는 획기적인 방법을 제시합니다. 이는 앞으로 비디오 생성 기술의 발전에 중요한 전환점이 될 것으로 기대됩니다.
Reference
[arxiv] Video-T1: Test-Time Scaling for Video Generation
Published: (Updated: )
Author: Fangfu Liu, Hanyang Wang, Yimo Cai, Kaiyan Zhang, Xiaohang Zhan, Yueqi Duan
http://arxiv.org/abs/2503.18942v2