TEMPLE: 난이도 조절 및 사전 SFT 정렬을 통한 비디오 거대 언어 모델의 시간적 선호도 학습


베이징대학교 연구팀이 개발한 TEMPLE은 직접적 선호도 최적화(DPO), 난이도 스케줄링, 사전 SFT 정렬을 통해 비디오 거대 언어 모델(Video LLMs)의 시간적 추론 능력을 크게 향상시킨 혁신적인 프레임워크입니다. 적은 양의 데이터로도 뛰어난 성능을 보이며, 향후 신뢰할 수 있는 Video LLMs 개발에 기여할 것으로 기대됩니다.

related iamge

시간의 흐름을 이해하는 비디오 AI, TEMPLE의 혁신

최근 비디오 거대 언어 모델(Video LLMs)이 괄목할 만한 발전을 이루고 있지만, 여전히 시간적 추론 능력 향상이라는 과제에 직면해 있습니다. 기존 방법들은 데이터 내 시간적 상관관계가 약하고, 학습 과정에서 다음 토큰 예측 방식에 의존하기 때문에 시간적 맥락을 제대로 이해하지 못하는 한계를 가지고 있었습니다.

이러한 문제를 해결하기 위해, 베이징대학교 연구팀이 제시한 TEMPLE (TEMporal Preference Learning)직접적 선호도 최적화(DPO) 를 활용하여 Video LLMs의 시간적 추론 능력을 획기적으로 향상시키는 시스템입니다. TEMPLE은 단순히 비디오와 텍스트를 매핑하는 것을 넘어, 시간적 정보가 풍부한 비디오를 선택하고, 다양한 변형(perturbation) 전략을 통해 비디오에 대한 모델의 반응을 비교 분석함으로써 시간적 이해도를 높입니다.

TEMPLE의 핵심 혁신은 두 가지입니다. 첫째, 난이도 스케줄링(curriculum learning) 을 통해 모델의 강건성과 적응성을 향상시켰습니다. 즉, 단계적으로 변형의 난이도를 높여가며 학습시킴으로써, 다양한 시간적 변화에 대한 모델의 반응 능력을 향상시켰습니다. 둘째, **'사전 SFT 정렬(Pre-SFT Alignment)'**을 도입하여 미세 조정(fine-tuning) 전에 선호도 최적화를 수행함으로써, 세밀한 시간적 이해를 우선시했습니다.

연구팀은 다양한 벤치마크를 통해 TEMPLE이 기존 방법보다 성능이 훨씬 뛰어나다는 것을 실험적으로 증명했습니다. 특히, 상대적으로 적은 양의 자체 생성 DPO 데이터만으로도 탁월한 성능 향상을 보였습니다. 또한, DPO 데이터의 아키텍처 간 전이성과 난이도 스케줄링의 역할에 대한 분석을 통해 TEMPLE의 확장성과 효율성을 입증했습니다.

결론적으로, TEMPLE은 SFT 기반 방법을 보완하는 확장 가능하고 효율적인 프레임워크로, 신뢰할 수 있는 Video LLMs 개발의 길을 열었습니다. 자세한 내용은 GitHub에서 확인할 수 있습니다.


Li Shicheng 등의 연구는 비디오 AI의 시간적 이해 능력 향상에 새로운 이정표를 제시했습니다. TEMPLE은 단순한 기술적 발전을 넘어, AI가 더욱 정교하고 복잡한 시각 정보를 이해하고 처리할 수 있는 가능성을 보여주는 중요한 사례입니다.


*이 기사는 AI가 생성한 내용으로, 일부 정보가 실제와 다를 수 있습니다. 정확한 확인을 위해 추가적인 검증을 권장드립니다.

Reference

[arxiv] TEMPLE:Temporal Preference Learning of Video LLMs via Difficulty Scheduling and Pre-SFT Alignment

Published:  (Updated: )

Author: Shicheng Li, Lei Li, Kun Ouyang, Shuhuai Ren, Yuanxin Liu, Yuanxing Zhang, Fuzheng Zhang, Lingpeng Kong, Qi Liu, Xu Sun

http://arxiv.org/abs/2503.16929v2