AceReason-Nemotron: 강화학습으로 수학 및 코드 추론의 한계를 뛰어넘다


양첸 등 연구진의 AceReason-Nemotron 논문은 대규모 강화학습(RL)을 통해 소규모/중규모 모델의 수학 및 코드 추론 능력을 획기적으로 향상시킨 연구 결과를 제시합니다. 수학 전용 RL 학습 후 코드 전용 RL 학습을 진행하는 효과적인 학습 전략과 검증 기반 데이터 정제 파이프라인을 통해 기존 최첨단 모델을 능가하는 성능을 달성했습니다. 이 연구는 AI 추론 모델 발전에 중요한 기여를 할 것으로 기대됩니다.

related iamge

최근 대규모 강화학습(RL)을 이용한 추론 모델 연구가 활발하지만, 고성능 추론 모델을 구축하기 위한 최적의 학습 방법은 아직 베일에 가려져 있습니다. DeepSeek-R1과 같은 최첨단 모델의 구체적인 구현 세부 사항, 특히 데이터 정제 전략 및 RL 학습 방법은 종종 공개되지 않아 연구자들의 어려움을 더하고 있습니다. 게다가, 최근 연구에 따르면 소규모 모델에서는 RL보다 증류 기법이 더 효과적인 것으로 나타났습니다.

양첸 등 연구진이 발표한 논문 "AceReason-Nemotron: Advancing Math and Code Reasoning through Reinforcement Learning"은 이러한 한계를 극복하기 위한 획기적인 연구 결과를 제시합니다. 연구진은 대규모 RL이 소규모 및 중규모 모델의 추론 능력을 크게 향상시켜 기존 최첨단 증류 기반 모델의 성능을 능가한다는 것을 실험적으로 증명했습니다.

연구진은 광범위한 실험을 통해 RL 학습 과정을 체계적으로 연구하고, 간단하면서도 효과적인 접근 방식을 제안했습니다. 먼저 수학 문제만으로 학습을 진행한 후, 코드 문제로 학습을 확장하는 방식입니다. 놀랍게도, 수학 문제 전용 RL 학습은 강력한 증류 모델의 수학 벤치마크 성능을 크게 향상시킬 뿐만 아니라 (AIME 2025 기준 7B/14B 모델에서 각각 +14.6% / +17.2% 향상), 코드 추론 작업 성능도 향상시켰습니다 (LiveCodeBench 기준 7B/14B 모델에서 각각 +6.8% / +5.8% 향상). 더 나아가, 코드 전용 RL 학습을 추가적으로 진행하면 코드 벤치마크 성능이 더욱 향상되면서 수학 문제 해결 능력은 거의 저하되지 않았습니다.

연구진은 검증 가능한 정답과 테스트 케이스를 갖춘 어려운 문제들을 수집하는 강력한 데이터 정제 파이프라인을 개발하여 두 영역 모두에서 검증 기반 RL을 가능하게 했습니다. 또한, 점진적으로 증가하는 응답 길이를 사용한 커리큘럼 학습과 비정책 매개변수 업데이트의 안정화 효과를 포함한 주요 실험적 통찰력을 제시했습니다. RL이 사전 학습 및 지도 미세 조정(예: 증류) 과정에서 습득한 기본적인 추론 능력을 이끌어낼 뿐만 아니라 모델의 추론 능력의 한계를 뛰어넘어 이전에는 해결할 수 없었던 문제들을 해결할 수 있도록 한다는 것을 발견했습니다.

이 연구는 대규모 RL이 추론 모델의 성능 향상에 미치는 영향을 명확하게 보여주는 동시에, 효과적인 RL 학습 전략과 데이터 정제 방법을 제시하여 향후 AI 추론 모델 개발에 중요한 기여를 할 것으로 기대됩니다. 특히 수학과 코드 추론이라는 서로 다른 영역에서의 성능 향상은 AI의 다양한 분야에서의 응용 가능성을 더욱 확대할 것입니다.


*이 기사는 AI가 생성한 내용으로, 일부 정보가 실제와 다를 수 있습니다. 정확한 확인을 위해 추가적인 검증을 권장드립니다.

Reference

[arxiv] AceReason-Nemotron: Advancing Math and Code Reasoning through Reinforcement Learning

Published:  (Updated: )

Author: Yang Chen, Zhuolin Yang, Zihan Liu, Chankyu Lee, Peng Xu, Mohammad Shoeybi, Bryan Catanzaro, Wei Ping

http://arxiv.org/abs/2505.16400v1