VideoRFT: 강화 학습으로 비디오 추론 능력을 끌어올리다


VideoRFT는 강화 학습 기반 미세 조정을 통해 LLM의 비디오 추론 능력을 향상시키는 혁신적인 방법입니다. 자동화된 CoT 생성 파이프라인과 의미론적 일관성 보상을 통해 대규모 고품질 데이터셋을 구축하고, 6개의 벤치마크에서 최첨단 성능을 달성했습니다.

related iamge

인간 수준의 비디오 추론 능력을 향한 도약: VideoRFT의 등장

최근 급속한 발전을 거듭하고 있는 대규모 언어 모델(LLM)은 놀라운 언어 이해 능력을 보여주고 있지만, 영상과 같은 다차원 데이터에 대한 추론 능력은 여전히 한계를 가지고 있습니다. 영상 데이터는 복잡한 논리, 시간적 및 인과적 구조를 지니고 있어, LLM이 인간 수준의 추론 능력을 발휘하는 데 어려움을 겪고 있죠. 이러한 문제를 해결하기 위해 등장한 것이 바로 VideoRFT입니다.

Qi Wang 등 연구진이 제안한 VideoRFT는 강화 학습 기반 미세 조정(Reinforcement Fine-Tuning, RFT) 기법을 활용하여 LLM의 비디오 추론 능력을 획기적으로 향상시키는 혁신적인 접근 방식입니다. 기존의 RFT 방식을 영상 영역으로 확장한 VideoRFT는 두 단계로 이루어집니다. 첫 번째 단계는 지도 학습 기반 미세 조정(Supervised Fine-Tuning, SFT) 으로, Chain-of-Thought(CoT) 주석을 사용하여 모델을 학습시키는 과정입니다. 두 번째 단계는 강화 학습(Reinforcement Learning, RL) 을 통해 일반화 성능을 향상시키는 단계입니다.

하지만, 고품질의 대규모 비디오 CoT 데이터셋의 부족은 VideoRFT 개발의 큰 걸림돌이었습니다. 연구진은 이 문제를 해결하기 위해 완전 자동화된 CoT 생성 파이프라인을 개발했습니다. 이 파이프라인은 먼저, 풍부하고 구조화된 영상 정보를 바탕으로 추론 LLM이 초기 CoT를 생성하도록 유도합니다. 이후, 시각 언어 모델을 활용하여 실제 영상과의 일관성을 검증하고, 시각적 환각을 줄이는 과정을 거칩니다. 이를 통해 VideoRFT-CoT-102K (SFT용)VideoRFT-RL-310K (RL용) 두 개의 새로운 데이터셋을 구축했습니다.

더 나아가, 연구진은 의미론적 일관성 보상(semantic-consistency reward) 이라는 새로운 개념을 도입하여 RL 단계를 강화했습니다. 이 보상은 모델이 시각적 증거와 일치하는 일관되고 맥락에 맞는 추론 결과를 생성하도록 유도합니다.

결과적으로, VideoRFT는 6개의 비디오 추론 벤치마크에서 최첨단 성능을 달성하며, LLM의 비디오 추론 능력 향상에 새로운 지평을 열었습니다. 이 연구는 인공지능 분야의 핵심 과제인 시각적 추론 능력 발전에 크게 기여할 것으로 기대됩니다.


*이 기사는 AI가 생성한 내용으로, 일부 정보가 실제와 다를 수 있습니다. 정확한 확인을 위해 추가적인 검증을 권장드립니다.

Reference

[arxiv] VideoRFT: Incentivizing Video Reasoning Capability in MLLMs via Reinforced Fine-Tuning

Published:  (Updated: )

Author: Qi Wang, Yanrui Yu, Ye Yuan, Rui Mao, Tianfei Zhou

http://arxiv.org/abs/2505.12434v1