NOVER: 검증자 없는 강화 학습으로 언어 모델의 새로운 지평을 열다
NOVER는 외부 검증자 없이 강화 학습을 통해 언어 모델을 효율적으로 훈련하는 혁신적인 방법입니다. 기존 방식의 한계를 극복하고 성능 향상과 새로운 최적화 가능성을 제시하며, AI 분야 발전에 크게 기여할 것으로 기대됩니다.

최근 DeepSeek R1-Zero와 같은 획기적인 연구들은 인센티브 학습(incentive training) 의 효과를 보여주었습니다. 인센티브 학습은 언어 모델 출력의 최종 답변 부분만을 기반으로 보상을 계산하여 중간 추론 단계 생성을 장려하는 강화 학습 패러다임입니다. 하지만 이러한 방법들은 외부 검증자(external verifiers) 에 근본적으로 의존하며, 이러한 검증자가 쉽게 이용 가능한 수학이나 코딩과 같은 영역에만 적용 가능하다는 한계를 가지고 있습니다. 보상 모델이 검증자 역할을 할 수 있지만, 고품질의 주석 데이터가 필요하고 훈련 비용이 많이 든다는 어려움이 있습니다.
류웨이(Wei Liu) 등 6명의 연구원이 발표한 논문 "NOVER: Incentive Training for Language Models via Verifier-Free Reinforcement Learning"은 이러한 문제에 대한 해결책을 제시합니다. 연구팀은 외부 검증자가 필요 없는 일반적인 강화 학습 프레임워크인 NOVER(NO-VERifier Reinforcement Learning) 를 제안했습니다. NOVER는 외부 검증자 없이 표준 지도 학습 미세 조정 데이터만으로 인센티브 학습을 다양한 텍스트 간 작업에 적용할 수 있게 합니다.
놀랍게도, NOVER는 DeepSeek R1 671B와 같은 대규모 추론 모델에서 증류된 동일한 크기의 모델보다 7.7% 향상된 성능을 보였습니다. 이는 NOVER가 단순히 기존 방법의 개선을 넘어 대규모 언어 모델 최적화에 새로운 가능성을 제시함을 의미합니다. 더 나아가, NOVER의 유연성은 역 인센티브 학습(inverse incentive training) 과 같은 새로운 최적화 방식의 가능성까지 열어줍니다. 이 연구는 외부 검증자에 대한 의존성을 제거함으로써, 인센티브 학습의 적용 범위를 획기적으로 확장하고, 더욱 효율적이고 강력한 언어 모델 개발의 길을 열었습니다.
이 연구는 향후 AI 분야, 특히 대규모 언어 모델의 발전에 중요한 영향을 미칠 것으로 예상됩니다. 외부 검증자에 대한 의존성을 극복한 NOVER의 등장은 수학, 코딩뿐만 아니라 다양한 분야에서 언어 모델의 활용 가능성을 높이고, 더욱 정교하고 효율적인 AI 시스템 구축을 위한 중요한 이정표가 될 것입니다.
Reference
[arxiv] NOVER: Incentive Training for Language Models via Verifier-Free Reinforcement Learning
Published: (Updated: )
Author: Wei Liu, Siya Qi, Xinyu Wang, Chen Qian, Yali Du, Yulan He
http://arxiv.org/abs/2505.16022v1