Reason-RFT: 시각적 추론의 새로운 지평을 열다 🚀
Reason-RFT는 강화 학습 기반의 시각적 추론 미세 조정 프레임워크로, 기존 방식의 한계를 극복하고 최첨단 성능과 우수한 일반화 능력, 데이터 효율성을 보여줍니다. 다양한 시각적 추론 과제에서 뛰어난 성능을 입증하며, AGI 개발에 중요한 발걸음이 될 것으로 기대됩니다.

Reason-RFT: 시각적 추론의 혁신
복잡한 시각 정보를 이해하는 능력, 즉 시각적 추론은 인공지능(AI)의 발전에 있어 핵심적인 요소입니다. 특히, 다양한 분야에 걸친 응용과 인공 일반 지능(AGI)의 실현에 중요한 역할을 합니다. 기존의 시각 언어 모델(VLM)의 추론 능력 향상을 위해서는 Chain-of-Thought(CoT)를 이용한 지도 학습 방식이 주로 사용되었지만, 이는 정교하게 주석이 달린 방대한 데이터를 필요로 할 뿐만 아니라, 과적합 및 도메인 특이성 문제로 이어질 수 있습니다. 즉, 특정 데이터셋에 과도하게 학습되어 다른 상황이나 분야에 적용하기 어려운 한계를 가졌다는 뜻입니다.
이러한 문제를 해결하기 위해 등장한 것이 바로 Reason-RFT입니다. 중국과학원 자동화연구소의 Huajie Tan 등 연구진이 개발한 Reason-RFT는 강화 학습 기반의 새로운 미세 조정 프레임워크로, 시각적 추론 과제에서 일반화 능력을 획기적으로 향상시킵니다.
Reason-RFT는 크게 두 단계로 구성됩니다.
- 지도 학습(SFT) 단계: CoT 데이터를 사용하여 VLM의 추론 잠재력을 활성화합니다. 이 단계는 기존 방식과 유사하지만, 다음 단계를 위한 기반을 마련하는 역할을 합니다.
- 강화 학습 단계: Group Relative Policy Optimization (GRPO) 기반의 강화 학습을 통해 다양한 추론-응답 쌍을 생성하여 모델의 일반화 능력을 향상시킵니다. 단순히 정답만을 학습하는 것이 아니라, 다양한 추론 과정을 경험하도록 함으로써, 새로운 상황에도 유연하게 대처할 수 있도록 합니다.
연구팀은 시각적 계산, 구조 인식, 공간 변환 등 다양한 과제를 포함하는 종합적인 데이터셋을 구축하여 Reason-RFT를 평가했습니다. 그 결과, Reason-RFT는 다음과 같은 세 가지 주요 장점을 보였습니다.
- 성능 향상: 다양한 과제에서 최첨단 성능을 달성, 대부분의 오픈소스 및 상용 모델을 능가했습니다.
- 일반화 능력 우수성: 다양한 과제와 도메인에서 견고한 성능을 유지, 다른 학습 방식을 뛰어넘었습니다.
- 데이터 효율성: 소량의 데이터만으로도 우수한 성능을 보이며, 전체 데이터셋을 사용한 SFT 기준 모델을 능가했습니다.
Reason-RFT는 시각적 추론 분야에 새로운 가능성을 제시하며, 향후 AGI 개발에 중요한 이정표가 될 것으로 기대됩니다. 과적합과 도메인 특이성이라는 난제를 극복하고, 실제 세계 문제 해결에 더욱 가까이 다가가는 혁신적인 기술입니다.
Reference
[arxiv] Reason-RFT: Reinforcement Fine-Tuning for Visual Reasoning
Published: (Updated: )
Author: Huajie Tan, Yuheng Ji, Xiaoshuai Hao, Minglan Lin, Pengwei Wang, Zhongyuan Wang, Shanghang Zhang
http://arxiv.org/abs/2503.20752v1