VL-Rethinker: 강화학습으로 시각-언어 모델의 자기 반성 능력을 끌어올리다
VL-Rethinker는 강화학습과 새로운 기법들을 활용하여 시각-언어 모델의 자기 반성 능력을 향상시킨 모델입니다. 선택적 샘플 재생(SSR)과 강제적 재사고 기법을 통해 여러 벤치마크에서 최첨단 성능을 달성했으며, 향후 AI 모델의 신뢰성과 안전성 향상에 기여할 것으로 기대됩니다.

최근 GPT-o1이나 DeepSeek-R1과 같은 '느린 사고' 시스템들이 명시적인 자기 반성을 통해 복잡한 문제 해결에 뛰어난 능력을 보여주고 있습니다. 수학 및 과학 벤치마크에서 GPT-4o와 같은 '빠른 사고' 모델들을 압도적인 성능 차이로 앞서고 있죠. 하지만, 이러한 모델들의 다중 모드 추론 능력은 여전히 빠른 사고 모델들과 비슷한 수준에 머물러 있었습니다. 예를 들어, GPT-o1은 MathVista, MathVerse, MathVision과 같은 벤치마크에서 빠른 사고 모델들과 유사한 성능을 보였습니다.
왕호제를 비롯한 연구팀은 이러한 한계를 극복하기 위해 강화학습을 활용하여 시각-언어 모델의 '느린 사고' 능력을 향상시키는 새로운 방법을 제시했습니다. 단순한 지식 증류에 의존하지 않고, 오직 강화학습만을 사용하여 최첨단 기술을 발전시킨 것이죠.
연구팀은 먼저 '선택적 샘플 재생(SSR)' 이라는 새로운 기법과 함께 GRPO 알고리즘을 적용하여 강화학습 과정에서 나타나는 '사라지는 이점' 문제를 해결했습니다. 하지만 이 방법만으로는 모델의 자기 반성이나 자기 검증 능력이 제한적이었습니다.
그래서 연구팀은 '강제적 재사고' 라는 기법을 추가로 도입했습니다. 이는 강화학습 훈련 중에 '재사고 트리거 토큰'을 결과물 끝에 추가하여 명시적으로 자기 반성적 추론 단계를 강제하는 방법입니다. SSR과 강제적 재사고 기법을 결합한 VL-Rethinker 모델은 MathVista와 MathVerse 벤치마크에서 각각 80.4%, 63.5%의 놀라운 성능을 기록하며 최첨단 기록을 경신했습니다. 뿐만 아니라 MathVision, MMMU-Pro, EMMA, MEGA-Bench와 같은 다양한 분야의 벤치마크에서도 오픈소스 최고 성능을 달성하며 OpenAI-o1과의 성능 격차를 크게 줄였습니다. 실험 결과는 이러한 접근 방식의 효과를 명확하게 보여줍니다.
이 연구는 시각-언어 모델의 추론 능력 향상에 새로운 가능성을 제시하며, 앞으로 더욱 발전된 인공지능 시스템 개발에 중요한 기여를 할 것으로 기대됩니다. 특히, 자기 반성과 자기 검증 능력을 강화하는 VL-Rethinker의 접근 방식은 향후 AI 모델의 신뢰성과 안전성을 높이는 데에도 큰 도움을 줄 것으로 예상됩니다.
Reference
[arxiv] VL-Rethinker: Incentivizing Self-Reflection of Vision-Language Models with Reinforcement Learning
Published: (Updated: )
Author: Haozhe Wang, Chao Qu, Zuming Huang, Wei Chu, Fangzhen Lin, Wenhu Chen
http://arxiv.org/abs/2504.08837v3