혁신적인 강화학습: S-GRPO로 대규모 언어 모델의 추론 효율 극대화
본 기사는 Muzhi Dai, Chenxu Yang, Qingyi Si 연구진이 발표한 S-GRPO 알고리즘에 대한 내용을 다룹니다. S-GRPO는 대규모 언어 모델의 추론 과정에서 과도한 계산을 줄이고 정확도를 높이는 강화학습 기반의 새로운 방법입니다. 다양한 벤치마크 테스트를 통해 추론 길이 단축과 정확도 향상을 동시에 달성하여 효율성과 성능 개선에 큰 기여를 할 것으로 기대됩니다.

최근 대규모 언어 모델(LLM) 분야에서 테스트 시간 스케일링(Test-Time Scaling) 이 활발히 연구되고 있습니다. 특히, 사고 연쇄(Chain-of-Thought, CoT) 생성 길이를 늘려 추론 능력을 향상시키는 방법이 주목받고 있죠. Deepseek R1과 같은 고성능 추론 모델을 목표로 하는 연구들이 활발히 진행 중입니다.
하지만, Dai, Yang, Si 등의 연구진이 발표한 논문 "S-GRPO: Early Exit via Reinforcement Learning in Reasoning Models"에 따르면, Qwen3와 같은 최첨단 모델조차도 CoT 생성 과정에서 과도한 중복된 사고를 반복하는 문제점이 발견되었습니다. 이는 기존의 결과 중심 강화 학습의 한계 때문인데요. 기존 방법은 중간 추론 과정의 규제를 제대로 고려하지 못했던 것입니다.
이러한 문제를 해결하기 위해 연구진은 S-GRPO(Serial-Group Decaying-Reward Policy Optimization) 라는 혁신적인 강화 학습 방법을 제안했습니다. S-GRPO는 모델이 중간 추론 단계의 충분성을 평가하고 CoT 생성 과정에서 조기에 종료할 수 있도록 합니다. 기존의 GRPO가 여러 추론 경로를 동시에 탐색하는 것과 달리, S-GRPO는 하나의 경로를 순차적으로 탐색하며, 여러 시점에서 추론을 종료하고 답을 생성합니다.
S-GRPO의 핵심은 점차 감소하는 보상(Decaying-Reward) 입니다. 올바른 답을 얻은 경우, 추론 경로의 앞쪽에서 종료할수록 더 큰 보상을 받습니다. 이를 통해 모델은 보다 정확하고 간결한 추론을 수행하고, 적절한 시점에 추론을 조기에 종료하도록 유도합니다.
실험 결과, S-GRPO는 Qwen3 및 Deepseek-distill과 같은 최첨단 추론 모델과 호환되며, GSM8K, AIME 2024, AMC 2023, MATH-500, GPQA Diamond 등 다양한 벤치마크에서 괄목할 만한 성과를 거두었습니다. 추론 길이는 35.4%61.1% 감소했고, 정확도는 0.72%6.08% 향상되었습니다! 이는 추론 효율과 정확도를 동시에 향상시키는 획기적인 성과입니다.
S-GRPO는 단순히 추론 속도를 높이는 것뿐만 아니라, 모델의 추론 과정 자체를 개선하여 더욱 효율적이고 정확한 결과를 얻도록 돕는 혁신적인 방법론입니다. 대규모 언어 모델의 발전에 중요한 기여를 할 것으로 기대됩니다.
Reference
[arxiv] S-GRPO: Early Exit via Reinforcement Learning in Reasoning Models
Published: (Updated: )
Author: Muzhi Dai, Chenxu Yang, Qingyi Si
http://arxiv.org/abs/2505.07686v2