VL-Rethinker: 강화학습으로 시각-언어 모델의 자기 성찰 능력 끌어올리다


본 논문은 강화학습을 이용하여 시각-언어 모델의 자기 성찰 능력을 향상시킨 VL-Rethinker 모델을 제시합니다. 선택적 샘플 재생(SSR)과 강제적 재사고 전략을 통해 다양한 벤치마크에서 최첨단 성능을 달성하였으며, '느린 사고' AI 모델의 발전에 크게 기여할 것으로 예상됩니다.

related iamge

VL-Rethinker: 강화학습으로 시각-언어 모델의 자기 성찰 능력 끌어올리다

최근 GPT-o1이나 DeepSeek-R1과 같은 '느린 사고' 시스템들이 명시적인 자기 성찰을 통해 복잡한 문제 해결에 탁월한 능력을 보여주고 있습니다. 수학 및 과학 벤치마크에서 GPT-4o 같은 '빠른 사고' 모델들을 압도적인 성능으로 앞서고 있죠. 하지만, 다양한 정보를 활용하는 다중 모드 추론 능력은 여전히 '빠른 사고' 모델과 비슷한 수준에 머물러 있습니다. 예를 들어, GPT-o1의 MathVista, MathVerse, MathVision과 같은 벤치마크 성능은 '빠른 사고' 모델과 유사한 수준입니다.

왕 하오저(Haozhe Wang) 등 연구진이 발표한 논문, "VL-Rethinker: Incentivizing Self-Reflection of Vision-Language Models with Reinforcement Learning"은 이러한 한계를 극복하고자 강화학습을 활용하여 시각-언어 모델의 '느린 사고' 능력을 향상시키는 데 초점을 맞추고 있습니다. 특히, 지도 학습이 아닌 강화학습을 통해 성능 향상을 이뤄냈다는 점이 주목할 만합니다.

연구진은 먼저, 소위 '사라지는 이점 문제'를 해결하기 위해 새로운 기법인 선택적 샘플 재생(Selective Sample Replay, SSR) 을 도입하여 GRPO 알고리즘을 개선했습니다. 이 접근 방식은 뛰어난 성능을 보였지만, 결과적으로 훈련된 모델은 여전히 자기 성찰이나 자기 검증 능력이 제한적이었습니다.

그래서 연구진은 '느린 사고'를 더욱 촉진하기 위해 강제적 재사고(Forced Rethinking) 전략을 고안했습니다. 이 전략은 RL 훈련에서 초기 결과물의 끝에 텍스트 기반의 '재사고' 유도 신호를 추가하여 자기 성찰적 추론 단계를 명시적으로 강제하는 것입니다.

이 두 가지 기법을 결합한 VL-Rethinker 모델은 MathVista, MathVerse, MathVision에서 각각 80.3%, 61.8%, 43.9%의 최첨단 점수를 달성했습니다. MMMU-Pro, EMMA, MEGA-Bench와 같은 다양한 분야의 벤치마크에서도 오픈소스 최고 성능을 기록하며, GPT-o1과의 성능 격차를 크게 줄였습니다.

이 연구는 시각-언어 모델의 '느린 사고' 능력 향상에 대한 새로운 가능성을 제시하며, 향후 AI 모델의 추론 능력 발전에 중요한 이정표가 될 것으로 기대됩니다. 특히, 강화학습을 통해 자기 성찰 능력을 향상시킨 접근 방식은 다른 분야의 AI 모델 개발에도 시사하는 바가 큽니다.


*이 기사는 AI가 생성한 내용으로, 일부 정보가 실제와 다를 수 있습니다. 정확한 확인을 위해 추가적인 검증을 권장드립니다.

Reference

[arxiv] VL-Rethinker: Incentivizing Self-Reflection of Vision-Language Models with Reinforcement Learning

Published:  (Updated: )

Author: Haozhe Wang, Chao Qu, Zuming Huang, Wei Chu, Fangzhen Lin, Wenhu Chen

http://arxiv.org/abs/2504.08837v1