혁신적인 강화학습: LLM 추론기의 가치를 되살리다 - RL$^V$의 등장


본 기사는 Kusha Sareen 등 연구진이 개발한 새로운 강화학습(RL) 방법인 RL$^V$를 소개합니다. RL$^V$는 LLM 기반 추론기의 성능 향상 및 테스트 시간 컴퓨팅 효율을 극대화하는 혁신적인 기술로, MATH 정확도 향상, 테스트 시간 컴퓨팅 확장, 뛰어난 일반화 성능 등의 주요 성과를 거두었습니다. 이는 LLM 기반 추론기의 실용성을 크게 높이는 획기적인 발전으로 평가됩니다.

related iamge

최근 대규모 언어 모델(LLM) 기반 추론기의 성능 향상을 위한 강화학습(RL) 연구가 활발합니다. 기존의 GRPO나 Leave-one-out PPO와 같은 방법들은 경험적으로 추정된 수익에 의존하며, 학습된 가치 함수를 활용하지 않는다는 한계가 있었습니다. 이는 가치 함수를 검증에 활용하는 테스트 시간 컴퓨팅 확장에 어려움을 초래했습니다.

Kusha Sareen 등 연구진은 이러한 문제를 해결하기 위해 획기적인 새로운 RL 방법인 **RL$^V$**를 제안했습니다. RL$^V$는 기존의 '가치 함수가 없는' RL 방법을 강화하여 LLM을 추론기이자 생성적 검증기로 동시에 학습시키는 방법입니다. RL-생성 데이터를 사용하여 검증 기능을 추가하면서도 상당한 오버헤드 없이 효율성을 높였습니다.

연구 결과는 놀랍습니다. RL$^V$는 병렬 샘플링을 통해 MATH 정확도를 20% 이상 향상시켰으며, 기존 RL 방법에 비해 8~32배나 효율적인 테스트 시간 컴퓨팅 확장을 가능하게 했습니다. 또한, 쉬운 문제부터 어려운 문제, 그리고 도메인 외부의 문제까지 뛰어난 일반화 성능을 보였습니다. 특히, 긴 추론 R1 모델을 사용하여 병렬 및 순차적 테스트 시간 컴퓨팅을 동시에 확장했을 때는 성능이 1.2~1.6배 향상되는 결과를 얻었습니다.

이러한 성과는 LLM 기반 추론기의 실용성을 크게 높일 것으로 기대됩니다. RL$^V$는 단순히 성능 향상에 그치지 않고, 테스트 시간 컴퓨팅 효율을 극대화하여 실제 응용 분야에서의 활용 가능성을 넓히는 혁신적인 기술입니다. 앞으로 RL$^V$를 기반으로 한 다양한 응용 연구가 활발하게 진행될 것으로 예상되며, AI 기술 발전에 크게 기여할 것으로 전망됩니다.


*이 기사는 AI가 생성한 내용으로, 일부 정보가 실제와 다를 수 있습니다. 정확한 확인을 위해 추가적인 검증을 권장드립니다.

Reference

[arxiv] Putting the Value Back in RL: Better Test-Time Scaling by Unifying LLM Reasoners With Verifiers

Published:  (Updated: )

Author: Kusha Sareen, Morgane M Moss, Alessandro Sordoni, Rishabh Agarwal, Arian Hosseini

http://arxiv.org/abs/2505.04842v1