획기적인 발견! PRM 없이도 가능할까? AI 추론 능력 향상의 새로운 지평


본 논문은 대규모 언어 모델의 추론 능력 향상에 있어 기존의 상식을 뒤집는 획기적인 결과를 제시합니다. PRM(Process Reward Model) 없이도 순수 강화학습만으로 추론 능력 향상이 가능하며, 기존 PRM의 한계를 극복하기 위한 자기 PRM(Self-PRM)이라는 새로운 방법론을 제안합니다. 하지만 Self-PRM의 정확도 향상과 보상 정렬 문제는 여전히 과제로 남아있으며, 더욱 발전된 자기 인식적인 추론 모델 개발을 위한 지속적인 연구가 필요합니다.

related iamge

획기적인 발견! PRM 없이도 가능할까? AI 추론 능력 향상의 새로운 지평

최근 중국 연구진(Zhangying Feng 외)이 발표한 논문 "Is PRM Necessary? Problem-Solving RL Implicitly Induces PRM Capability in LLMs" 은 AI 연구계에 큰 파장을 일으키고 있습니다. 기존의 상식을 뒤엎는 이 연구는, 복잡한 추론 능력 향상에 있어서 핵심 기술로 여겨졌던 PRM(Process Reward Model)이 반드시 필요한 것이 아닐 수 있다는 놀라운 결과를 제시했기 때문입니다.

PRM, 과연 필수불가결인가?

지금까지 대규모 언어 모델(LLM)의 추론 능력을 향상시키는 주요 방법으로 강화학습(RL)과 PRM이 사용되어 왔습니다. PRM은 모델의 추론 과정 자체를 평가하여 보상을 제공하는 방식으로, 모델이 단순히 정답을 맞추는 것뿐 아니라, 문제 해결 과정의 논리적 정합성까지 고려하도록 유도합니다. 하지만, 이 연구는 DeepSeek-R1이라는 모델을 통해 순수한 RL 훈련만으로도 수학 문제 해결 능력이 향상될 수 있음을 보여주었습니다. 이는 기존의 통념을 뒤집는 획기적인 결과입니다.

PRM의 한계와 자기 PRM(Self-PRM)의 등장

연구진은 더 나아가 기존 PRM의 한계점을 지적합니다. 현재의 PRM은 DeepSeek-R1이나 QwQ-32B와 같은 최첨단 모델에는 단순한 다수결 투표 방식보다 성능이 떨어진다는 것입니다. 이러한 한계를 극복하기 위해 연구진은 모델이 스스로 생성한 해결책을 평가하고 재순위화하는 '자기 PRM(Self-PRM)'을 제안합니다. Self-PRM은 특히 대규모 데이터셋에서 정확도를 향상시키지만, 어려운 문제에서는 정확도가 10% 미만으로 낮아 오류를 정답으로 잘못 분류하는 등의 문제점을 여전히 가지고 있습니다.

미래를 향한 전망: 더욱 발전된 자기 인식적 모델

이 연구는 순수 RL 훈련이 문제 해결 능력 향상뿐 아니라 강력한 PRM 능력을 자연스럽게 키울 수 있다는 것을 시사합니다. 하지만 Self-PRM의 정확도 향상과 보상 정렬 문제 해결은 여전히 과제로 남아있습니다. 연구진은 더욱 안정적이고 자기 인식적인 추론 모델 개발을 위해서는 RL의 확장과 자기 평가 메커니즘 개선이 지속적으로 필요하다고 강조합니다. 이 연구는 AI 추론 모델 개발에 새로운 가능성을 제시하며, 향후 연구 방향에 중요한 영향을 미칠 것으로 예상됩니다.


*이 기사는 AI가 생성한 내용으로, 일부 정보가 실제와 다를 수 있습니다. 정확한 확인을 위해 추가적인 검증을 권장드립니다.

Reference

[arxiv] Is PRM Necessary? Problem-Solving RL Implicitly Induces PRM Capability in LLMs

Published:  (Updated: )

Author: Zhangying Feng, Qianglong Chen, Ning Lu, Yongqian Li, Siqi Cheng, Shuangmu Peng, Duyu Tang, Shengcai Liu, Zhirui Zhang

http://arxiv.org/abs/2505.11227v1