Reason-RFT: 시각적 추론의 새로운 지평을 열다
Reason-RFT는 강화 학습 기반의 미세 조정 프레임워크로, 기존의 시각적 추론 모델의 한계를 극복하고 일반화 성능을 크게 향상시켰습니다. 다양한 과제에서 최첨단 성능을 달성하며, 소량의 데이터로도 뛰어난 성능을 발휘하는 등 데이터 효율성 또한 뛰어납니다.

복잡한 시각 정보를 이해하는 능력, 즉 시각적 추론은 인공지능(AI)의 핵심 과제입니다. 특히, 다양한 분야에서 활용 가능한 인공 일반 지능(AGI) 개발에 필수적입니다. 기존의 시각-언어 모델(VLM)은 Chain-of-Thought(CoT) 기반의 지도 학습을 통해 시각적 추론 능력을 향상시켜왔습니다. 하지만 이러한 방식은 정교한 주석이 달린 방대한 데이터에 의존하며, 과적합 및 도메인 특화 문제로 인해 실제 세계 적용에 어려움을 겪어왔습니다.
Tan Huajie 등 연구진이 발표한 Reason-RFT는 이러한 한계를 극복하기 위해 등장했습니다. Reason-RFT는 강화 학습 기반의 미세 조정 프레임워크로, 두 단계의 학습 과정을 통해 시각적 추론의 일반화 능력을 획기적으로 향상시켰습니다. 먼저, CoT 데이터를 이용한 지도 학습(SFT)으로 VLM의 추론 잠재력을 활성화하고, 이후 그룹 상대 정책 최적화(GRPO) 기반 강화 학습을 통해 다양한 추론-응답 쌍을 생성함으로써 일반화 능력을 강화합니다.
연구진은 시각적 계산, 구조 인식, 공간 변환 등 다양한 과제를 포함하는 종합적인 데이터셋을 구축하여 Reason-RFT를 평가했습니다. 그 결과, Reason-RFT는 다음과 같은 세 가지 주요 장점을 보여주었습니다.
- 성능 향상: 다양한 과제에서 최첨단 성능을 달성, 기존의 오픈소스 및 상용 모델들을 능가했습니다.
- 일반화 우수성: 다양한 과제와 도메인에서 견고한 성능을 유지하며, 기존의 학습 방식보다 우수한 성능을 보였습니다.
- 데이터 효율성: 소량의 데이터만으로도 뛰어난 성능을 발휘하며, 전체 데이터셋을 이용한 SFT 기준 모델보다 우수한 결과를 보였습니다.
Reason-RFT는 시각적 추론 분야에 새로운 가능성을 제시합니다. 과적합 문제 해결과 일반화 능력 향상을 통해, 실제 세계 문제 해결에 더욱 가까이 다가갈 수 있는 발판을 마련했습니다. 자세한 내용은 프로젝트 웹사이트 (https://tanhuajie.github.io/ReasonRFT)에서 확인할 수 있습니다.
Reference
[arxiv] Reason-RFT: Reinforcement Fine-Tuning for Visual Reasoning
Published: (Updated: )
Author: Huajie Tan, Yuheng Ji, Xiaoshuai Hao, Minglan Lin, Pengwei Wang, Zhongyuan Wang, Shanghang Zhang
http://arxiv.org/abs/2503.20752v2