TEMPO: 난이도 조절과 사전 SFT 정렬을 통한 비디오 거대 언어 모델의 시간적 선호도 최적화


TEMPO는 비디오 거대 언어 모델의 시간적 추론 능력 향상을 위한 혁신적인 프레임워크로, 직접적 선호도 최적화(DPO), 난이도 스케줄링, 사전 SFT 정렬을 통해 기존 방식의 한계를 극복하고 성능 향상을 달성했습니다. 이는 더욱 발전된 비디오 이해 기술 개발을 위한 중요한 발걸음입니다.

related iamge

TEMPO: 비디오 거대 언어 모델의 시간적 추론 능력 혁신

최근 비디오 거대 언어 모델(Video LLMs)이 눈부신 발전을 이루고 있지만, 시간적 추론 능력에는 여전히 한계가 존재합니다. 기존의 이중 단계 방식(대규모 비디오-텍스트 데이터를 이용한 사전 학습 후, 특정 작업을 위한 지도 학습 미세 조정)은 데이터 내 시간적 상관관계가 약하고, 훈련 중 다음 토큰 예측 패러다임에 의존하기 때문에 시간적 추론에 어려움을 겪습니다.

이러한 문제를 해결하기 위해 등장한 것이 바로 TEMPO(TEMporal Preference Optimization)입니다. 시청펑 리(Shicheng Li) 등 10명의 연구진이 제안한 TEMPO는 직접적 선호도 최적화(DPO) 를 통해 Video LLMs의 시간적 추론 능력을 향상시키는 시스템적인 프레임워크입니다.

TEMPO의 핵심은 다음과 같습니다.

  • 자동화된 선호도 데이터 생성 파이프라인: 시간 정보가 풍부한 비디오를 선택하고, 비디오 특유의 섭동 전략을 설계하여, 깨끗하고 섭동된 비디오 입력에 대한 모델 응답을 평가함으로써 선호도 쌍을 체계적으로 구성합니다. 이는 모델이 시간적 흐름을 더욱 정확하게 이해하도록 돕습니다.

  • 커리큘럼 학습(Curriculum Learning): 섭동의 난이도를 점진적으로 높여 모델의 강건성과 적응력을 향상시킵니다. 마치 어린아이가 쉬운 문제부터 어려운 문제까지 차례로 풀어나가는 것과 같습니다.

  • 사전 SFT 정렬(Pre-SFT Alignment): 지시어 미세 조정 전에 선호도 최적화를 적용하여 세밀한 시간적 이해를 우선시합니다. 이는 마치 건물의 기초를 튼튼히 다지는 것과 같습니다.

실험 결과, TEMPO는 상대적으로 적은 양의 자체 생성 DPO 데이터만으로도 다양한 벤치마크에서 Video LLM의 성능을 향상시키는 것으로 나타났습니다. 또한, DPO 데이터의 아키텍처 간 전이 가능성과 난이도 스케줄링의 역할에 대한 분석도 진행되었습니다. 이 연구는 TEMPO가 SFT 기반 방법에 대한 확장 가능하고 효율적인 보완책임을 강조하며, 신뢰할 수 있는 Video LLMs 개발의 길을 열었습니다.

결론적으로, TEMPO는 비디오 이해의 새로운 지평을 열고, 더욱 정교하고 효율적인 Video LLMs의 개발을 위한 혁신적인 전략을 제시합니다. 향후 연구에서는 다양한 분야에 대한 TEMPO의 적용 및 추가적인 성능 개선에 대한 연구가 기대됩니다.


*이 기사는 AI가 생성한 내용으로, 일부 정보가 실제와 다를 수 있습니다. 정확한 확인을 위해 추가적인 검증을 권장드립니다.

Reference

[arxiv] TEMPO: Temporal Preference Optimization of Video LLMs via Difficulty Scheduling and Pre-SFT Alignment

Published:  (Updated: )

Author: Shicheng Li, Lei Li, Kun Ouyang, Shuhuai Ren, Yuanxin Liu, Yuanxing Zhang, Fuzheng Zhang, Lingpeng Kong, Qi Liu, Xu Sun

http://arxiv.org/abs/2503.16929v1