혁신적인 강화학습 기법 PURE: LLM 추론 능력의 한계를 뛰어넘다


중국과학원 연구진이 개발한 PURE는 LLM의 추론 능력 향상을 위한 혁신적인 강화학습 기법입니다. 기존 방식의 보상 조작 문제를 최소값 보상 방식으로 해결하여, 30%의 학습 단계만으로도 우수한 성능을 달성했습니다. 이는 LLM의 추론 능력 향상 및 강화학습 분야 발전에 크게 기여할 것으로 기대됩니다.

related iamge

LLM 추론의 난제와 PURE의 등장

최근 대규모 언어 모델(LLM)의 발전은 눈부시지만, 복잡한 추론 과제 해결에는 여전히 한계가 있습니다. 이러한 문제를 해결하기 위해 프로세스 보상 모델(PRM) 이 주목받았습니다. 하지만 PRM은 '보상 조작(reward hacking)'이라는 심각한 문제에 직면했습니다. 중국과학원 등의 연구진이 발표한 논문 "Stop Summation: Min-Form Credit Assignment Is All Process Reward Model Needs for Reasoning"은 바로 이 문제에 대한 해결책을 제시합니다.

보상 조작의 원인과 PURE의 혁신적인 해결책

논문에 따르면, 기존 PRM의 보상 조작 문제는 강화 학습에서 사용되는 누적 감소 보상(summation-form credit assignment) 방식에 있습니다. 이 방식은 미래 보상을 누적하여 모델의 가치를 평가하는데, 이로 인해 LLM이 높은 보상을 얻을 수 있는 단계만 학습하는 경향이 생깁니다.

연구진은 이 문제를 해결하기 위해 PURE(Process sUpervised Reinforcement lEarning) 라는 새로운 기법을 제안했습니다. PURE의 핵심은 최소값 보상(min-form credit assignment) 방식입니다. 미래 보상 중 최소값을 모델의 가치로 정의함으로써 보상 범위를 제한하고, 보상을 더욱 효율적으로 분배합니다. 이는 보상 조작 문제를 상당히 완화시켜 줍니다.

놀라운 실험 결과와 미래 전망

실험 결과는 놀랍습니다. PURE 기반의 PRM 접근 방식은 기존 검증 가능한 보상 기반 방식과 유사한 추론 성능을 기존의 30% 학습 단계만으로 달성했습니다. 반면, 기존의 누적 보상 방식은 학습 초기에 실패하는 것으로 나타났습니다. 더 나아가, 10%의 검증 가능한 보상을 추가함으로써 보상 조작 문제를 더욱 완화하고, Qwen2.5-Math-7B 모델을 기반으로 AMC23에서 82.5%의 정확도, 5개 벤치마크에서 평균 53.3%의 정확도를 달성했습니다.

이 연구는 LLM의 추론 능력 향상에 중요한 돌파구를 마련했습니다. PURE는 LLM의 잠재력을 최대한 발휘하는 데 기여할 뿐만 아니라, 강화 학습 분야의 새로운 가능성을 제시합니다. github에서 코드와 모델을 확인할 수 있습니다. (https://github.com/CJReinforce/PURE)


*이 기사는 AI가 생성한 내용으로, 일부 정보가 실제와 다를 수 있습니다. 정확한 확인을 위해 추가적인 검증을 권장드립니다.

Reference

[arxiv] Stop Summation: Min-Form Credit Assignment Is All Process Reward Model Needs for Reasoning

Published:  (Updated: )

Author: Jie Cheng, Ruixi Qiao, Lijun Li, Chao Guo, Junle Wang, Gang Xiong, Yisheng Lv, Fei-Yue Wang

http://arxiv.org/abs/2504.15275v1