놀라운 강화학습의 두 얼굴: 수학 문제 해결 능력의 비밀


본 연구는 강화학습(RL)이 거대 언어 모델(LLM)의 수학적 추론 능력 향상에 미치는 영향을 '계획', '실행', '검증'이라는 세 가지 핵심 요소로 분해하여 분석했습니다. RL은 기존 문제의 실행 능력을 향상시키지만, 새로운 문제에는 '범위 벽'에 부딪히는 한계를 드러냈습니다. 합성 솔루션 트리 탐색 작업을 통해 이러한 현상을 검증하고, RL의 탐색 및 일반화 능력 향상을 통한 '범위 벽' 극복 가능성을 제시했습니다.

related iamge

최근, 거대 언어 모델(LLM)의 수학적 추론 능력 향상에 강화학습(Reinforcement Learning, RL)이 핵심적인 역할을 한다는 연구 결과가 쏟아져 나오고 있습니다. 특히 GRPO와 같은 RL 기법은 LLM의 성능을 눈에 띄게 향상시키는 것으로 알려져 있습니다. 하지만 단순히 정확도만 높이는 것만으로는 LLM이 실제로 어떤 문제 해결 능력을 갖추었는지, 어떤 부분이 개선되었는지 제대로 파악하기 어렵습니다.

Tian Qin 등 연구진은 이러한 한계를 극복하기 위해 문제 해결 과정을 세 가지 핵심 요소로 분해하는 획기적인 연구를 진행했습니다. 바로 계획(Plan) , 실행(Execute) , 검증(Verify) 입니다. 연구진은 RL이 LLM의 문제 해결 능력에 어떤 영향을 미치는지 이 세 가지 측면에서 분석했습니다.

흥미롭게도 연구 결과, RL은 주로 실행(Execute) 능력을 향상시키는 것으로 나타났습니다. 이미 알고 있는 문제에 대해서는 실행의 안정성과 정확성을 높이는 '온도 증류' 효과를 보였습니다. 하지만 새로운 유형의 문제를 만나면, '범위 벽(coverage wall)'에 부딪히는 현상이 관찰되었습니다. 즉, 계획(Plan) 능력이 부족하여 새로운 문제에 대한 해결 전략을 세우지 못하는 것입니다.

연구진은 이러한 현상을 더 자세히 이해하기 위해, 수학 문제 해결 과정을 단순화한 인공적인 솔루션 트리 탐색 작업을 설계했습니다. 이를 통해 실제 수학 문제 해결과 유사한 환경에서 RL의 영향을 정밀하게 분석하였고, 앞서 언급한 실행 능력 향상과 새로운 문제에 대한 취약성을 재확인했습니다. 하지만 동시에, 더 나은 탐색 전략과 일반화 능력을 통해 '범위 벽'을 극복할 가능성도 확인했습니다.

이 연구는 RL이 LLM의 추론 능력 향상에 기여하는 방식에 대한 귀중한 통찰력을 제공합니다. 단순히 정확도 향상에 그치지 않고, 문제 해결 능력의 구성 요소를 분석하여 RL의 강점과 한계를 명확히 밝힘으로써, LLM의 추론 능력을 한 단계 더 발전시킬 수 있는 중요한 방향을 제시합니다. 연구팀은 관련 코드를 GitHub (https://github.com/cfpark00/RL-Wall)에 공개하여 다른 연구자들의 후속 연구를 지원하고 있습니다. 💯


*이 기사는 AI가 생성한 내용으로, 일부 정보가 실제와 다를 수 있습니다. 정확한 확인을 위해 추가적인 검증을 권장드립니다.

Reference

[arxiv] Decomposing Elements of Problem Solving: What "Math" Does RL Teach?

Published:  (Updated: )

Author: Tian Qin, Core Francisco Park, Mujin Kwun, Aaron Walsman, Eran Malach, Nikhil Anand, Hidenori Tanaka, David Alvarez-Melis

http://arxiv.org/abs/2505.22756v1