AI 학계의 쾌거! 추론 시간 확장성을 극대화한 범용 보상 모델링


본 기사는 Zijun Liu 등 8명의 연구진이 발표한 'Inference-Time Scaling for Generalist Reward Modeling' 논문의 핵심 내용을 소개합니다. 이 연구는 강화 학습(RL)을 이용한 대규모 언어 모델(LLM)의 추론 시간 확장성을 크게 향상시키는 자기 원칙 비판 조정(SPCT) 기법과 DeepSeek-GRM 모델을 제시하며, 다양한 벤치마크에서 기존 모델들을 능가하는 성능을 입증했습니다.

related iamge

최근, 강화 학습(Reinforcement Learning, RL)을 이용한 대규모 언어 모델(LLM)의 사후 학습이 급속도로 발전하고 있습니다. 특히, RL을 통해 LLM의 추론 능력을 향상시키는 연구가 주목받고 있는데요, Zijun Liu 등 8명의 연구진은 "Inference-Time Scaling for Generalist Reward Modeling" 이라는 논문을 통해 이러한 추론 시간 확장성의 한계를 극복하는 놀라운 성과를 발표했습니다.

핵심 내용: 일반적인 질의에 대한 보상 모델링의 혁신

이 연구의 핵심은 일반적인 질의에 대한 보상 모델링(Reward Modeling, RM) 의 추론 시간 확장성을 향상시키는 것입니다. 기존 RL의 어려움 중 하나는 검증 가능한 질문이나 인공적인 규칙을 넘어 다양한 영역에서 LLM에 대한 정확한 보상 신호를 얻는 것이었습니다. 연구진은 이 문제를 해결하기 위해 점별 생성 보상 모델링(GRM) 을 채택, 다양한 입력 유형에 대한 유연성과 추론 시간 확장성을 확보했습니다.

혁신적인 학습 방법: 자기 원칙 비판 조정(SPCT)

더 나아가, 연구진은 자기 원칙 비판 조정(Self-Principled Critique Tuning, SPCT) 이라는 새로운 학습 방법을 제시했습니다. SPCT는 온라인 RL을 통해 GRM에서 확장 가능한 보상 생성 행동을 촉진하여 원칙을 적응적으로 생성하고 비판을 정확하게 수행합니다. 이를 통해 DeepSeek-GRM 모델이 탄생했습니다. DeepSeek-GRM은 병렬 샘플링을 사용하여 컴퓨팅 사용량을 확장하고, 메타 RM을 도입하여 투표 과정을 안내함으로써 추론 시간 확장성을 극대화했습니다.

놀라운 실험 결과: 기존 모델들을 압도하는 성능

실험 결과, SPCT는 GRM의 품질과 확장성을 크게 향상시켰으며, 다양한 RM 벤치마크에서 심각한 편향 없이 기존 방법과 모델들을 능가하는 성능을 보였습니다. 특히, 학습 시간 확장에 비해 더 나은 성능을 달성하는 것으로 나타났습니다. 물론 DeepSeek-GRM도 일부 과제에서 어려움을 겪지만, 연구진은 향후 일반적인 보상 시스템에 대한 연구를 통해 이러한 문제점을 해결할 수 있을 것으로 기대하고 있습니다. 더욱 흥미로운 점은 개발된 모델들이 공개될 예정이라는 점입니다.

결론: AI의 새로운 지평을 열다

이 연구는 LLM의 추론 시간 확장성에 대한 중요한 돌파구를 제시했습니다. DeepSeek-GRM은 향후 다양한 AI 애플리케이션에 폭넓게 활용될 가능성이 있으며, AI 기술 발전에 큰 영향을 미칠 것으로 예상됩니다. 연구진의 끊임없는 노력과 혁신적인 아이디어가 AI 분야의 새로운 지평을 열어갈 것으로 기대됩니다.👏


*이 기사는 AI가 생성한 내용으로, 일부 정보가 실제와 다를 수 있습니다. 정확한 확인을 위해 추가적인 검증을 권장드립니다.

Reference

[arxiv] Inference-Time Scaling for Generalist Reward Modeling

Published:  (Updated: )

Author: Zijun Liu, Peiyi Wang, Runxin Xu, Shirong Ma, Chong Ruan, Peng Li, Yang Liu, Yu Wu

http://arxiv.org/abs/2504.02495v2