혁신적인 추론 기반 보상 모델 RM-R1: LLM의 인간 선호도 정렬을 넘어


일리노이대 연구진이 개발한 추론 기반 보상 모델 RM-R1은 기존 LLM의 한계를 극복하고 인간 선호도와의 정렬을 향상시켰습니다. 추론 능력 통합을 통해 해석력을 높이고, 다양한 벤치마크에서 최첨단 성능을 달성했습니다. 오픈소스 공개를 통해 학계의 발전에 기여할 것으로 기대됩니다.

related iamge

최근 대규모 언어 모델(LLM) 의 발전은 놀랍지만, 이들의 출력이 항상 인간의 선호도와 일치하는 것은 아닙니다. 인간의 피드백을 통한 강화 학습(RLHF)은 이러한 문제를 해결하기 위한 핵심 전략이며, 그 중심에는 보상 모델(Reward Model, RM) 이 있습니다. 하지만 기존 RM은 불투명한 점수를 산출하거나 직접적인 예측만 생성하여 해석이 어렵다는 한계를 가지고 있었습니다.

일리노이 대학교 어바나-샴페인 캠퍼스(UIUC) 의 Xiusi Chen 등 연구진은 이러한 문제를 해결하기 위해, 추론 능력을 통합한 새로운 종류의 생성형 보상 모델, Reasoning Reward Model (ReasRM) 을 제시했습니다. 그 결과물이 바로 RM-R1입니다. RM-R1은 보상 모델링을 추론 과제로 공식화하여, 자연어 비판을 통합하고 해석력을 높이는 데 성공했습니다.

RM-R1의 훈련은 크게 두 단계로 이루어집니다. 첫째, 고품질 추론 체인의 증류를 통해 LLM이 추론 과정을 효과적으로 학습하도록 합니다. 둘째, 검증 가능한 보상을 사용한 강화 학습을 통해 모델의 성능을 향상시킵니다. RM-R1은 자체적으로 추론 과정을 생성하거나 채팅 특유의 기준을 만들어 후보 답변을 평가합니다. 이는 마치 인간 전문가가 답변을 평가하는 것과 유사한 방식입니다.

실험 결과, RM-R1은 여러 보상 모델 벤치마크에서 최첨단 또는 최첨단에 근접한 성능을 달성했습니다. Llama 3.1-405B나 GPT-4o 같은 대규모 모델들을 최대 13.8%까지 능가하는 놀라운 결과를 보여주었습니다. 이는 단순히 성능 향상을 넘어, 추론 능력을 보상 모델링에 통합하는 것이 얼마나 효과적인지를 보여주는 강력한 증거입니다.

연구팀은 RM-R1과 관련 코드, 데이터를 https://github.com/RM-R1-UIUC/RM-R1 에서 공개하여 후속 연구를 지원하고 있습니다. 이는 학계 전반의 발전에 크게 기여할 것으로 기대됩니다. RM-R1은 단순한 보상 모델을 넘어, LLM의 인간 선호도 정렬과 해석력 향상에 새로운 지평을 열었습니다. 앞으로 RM-R1을 기반으로 더욱 발전된 LLM과 인간-컴퓨터 상호 작용 기술이 등장할 것으로 예상됩니다. 이는 단순한 기술적 발전을 넘어, 더욱 윤리적이고 신뢰할 수 있는 AI 시스템 구축에 한 걸음 더 다가서는 것을 의미합니다.


*이 기사는 AI가 생성한 내용으로, 일부 정보가 실제와 다를 수 있습니다. 정확한 확인을 위해 추가적인 검증을 권장드립니다.

Reference

[arxiv] RM-R1: Reward Modeling as Reasoning

Published:  (Updated: )

Author: Xiusi Chen, Gaotang Li, Ziqi Wang, Bowen Jin, Cheng Qian, Yu Wang, Hongru Wang, Yu Zhang, Denghui Zhang, Tong Zhang, Hanghang Tong, Heng Ji

http://arxiv.org/abs/2505.02387v1