딥러닝의 새로운 지평? RLVR의 추론 능력 향상에 대한 비판적 고찰


양월 등 연구진의 논문은 RLVR이 LLM의 추론 능력을 기저 모델 수준 이상으로 향상시키지 못한다는 사실을 밝혔습니다. 기저 모델의 한계와 새로운 RL 패러다임의 필요성을 강조하며, 증류 기법을 통한 추론 능력 확장 가능성을 제시합니다.

related iamge

최근 강화 학습 기반 검증 가능한 보상 (RLVR) 기법이 대규모 언어 모델(LLM)의 추론 능력 향상에 큰 성공을 거두었다는 연구 결과들이 발표되었습니다. 수학 및 프로그래밍 과제에서 특히 두드러진 성과를 보이며, 마치 전통적인 강화 학습이 에이전트의 전략 탐색 및 학습을 돕는 것처럼, RLVR이 LLM이 지속적으로 자기 개선을 통해 기저 모델을 뛰어넘는 새로운 추론 능력을 획득할 수 있게 한다고 여겨져 왔습니다.

하지만 양월 등 연구진이 발표한 논문 "Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?" 은 이러한 기존의 낙관적인 시각에 대한 날카로운 비판을 제기합니다. 연구진은 다양한 모델, 강화 학습 알고리즘, 그리고 수학, 코딩, 시각적 추론 벤치마크를 사용하여 RLVR 학습된 LLM의 추론 능력 경계를 체계적으로 조사했습니다. Pass@k (k 값이 클수록 정확도 기준이 높음) 지표를 사용하여 평가한 결과는 놀라웠습니다.

연구 결과, RLVR 학습은 근본적으로 새로운 추론 패턴을 유도하지 못한다는 사실이 밝혀졌습니다. k 값이 작을 때(예: k=1)는 RLVR 학습 모델이 기저 모델보다 성능이 우수했지만, k 값이 커질수록 기저 모델의 Pass@k 점수가 더 높았습니다. 이는 RLVR 학습을 통해 얻어진 추론 능력이 기저 모델의 능력을 벗어나지 못하며, 그 범위 내에 제한되어 있음을 보여줍니다. 커버리지 및 퍼플렉서티 분석 또한 이러한 결론을 뒷받침합니다.

기저 모델을 상한선으로 간주하여 분석한 결과, 여섯 가지 인기 있는 RLVR 알고리즘의 성능이 비슷하며 기저 모델의 잠재력을 최대한 활용하는 데는 여전히 미흡하다는 사실이 드러났습니다. 반면, 증류(Distillation) 기법은 교사 모델로부터 새로운 추론 패턴을 도입하여 모델의 추론 능력을 실질적으로 확장할 수 있음을 보여주었습니다.

결론적으로, 현재의 RLVR 방법론은 LLM에서 진정으로 새로운 추론 능력을 이끌어내는 잠재력을 아직 실현하지 못했습니다. 이 연구는 지속적인 확장과 다회차 에이전트-환경 상호 작용과 같은 개선된 강화 학습 패러다임의 필요성을 강조합니다. 이는 LLM의 추론 능력 향상에 대한 새로운 연구 방향을 제시하는 중요한 발견입니다. 향후 연구에서는 RLVR의 한계를 극복하고 LLM의 추론 능력을 더욱 발전시키기 위한 새로운 방법론 개발에 집중해야 할 것입니다.


*이 기사는 AI가 생성한 내용으로, 일부 정보가 실제와 다를 수 있습니다. 정확한 확인을 위해 추가적인 검증을 권장드립니다.

Reference

[arxiv] Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?

Published:  (Updated: )

Author: Yang Yue, Zhiqi Chen, Rui Lu, Andrew Zhao, Zhaokai Wang, Yang Yue, Shiji Song, Gao Huang

http://arxiv.org/abs/2504.13837v2